Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Appunti di bioinformatica, Dispense di Bioinformatica

appunti completi per esame di bioinformatica.

Tipologia: Dispense

2023/2024

In vendita dal 03/09/2024

ISAG2
ISAG2 🇮🇹

4.5

(4)

20 documenti

1 / 66

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
BIOINFORMATICA
“I costi di sequenziamento sono scesi più velocemente della legge di Moore”, dal punto di vista dei microprocessori ha
fatto questa osservazione empirica, che il numero di transistor in un circuito integrato raddoppia ogni due anni.
Questa frase è usata come un benchmark per sottolineare un progresso tecnologico molto rapido.
Le tecnologie che hanno permesso lo sviluppo dei microprocessori, sono le stesse che hanno prodotto, in grande parte,
questo abbattimento dei costi, in particolare si parlerà di fotolitografia.
In questo caso specifico il cross-over tra la tecnologia di fotolitografia sviluppata per i microprocessori, sono state poi
esportate nell’ingegneria dei materiali di superficie, uno dei più grandi contributi nell’abbattimento dei costi.
Dal 2001 a oggi si è passati da un costo di sequenziamento di 100 milioni a 100 dollari, a seconda del tipo di
sequenziamento.
Qual è il motivo di ciò?
- Grazie ad una riduzione dei volumi di reazione per il sequenziamento.
- Un aumento della densità di superficie con cui si riesce a sequenziare (la maggior parte avviene su superfici
solide).
La tecnologia di Sanger fu la prima, con centinaia di microlitri per reazione, seguita dal pirosequenziamento della roche
454, che utilizzava microcamere di reazioni con volumi di 20pl con una densità di circa 500/mm^2; con le prime
versioni di sequencing by sequencing di Illumina si inizia a parlare di densità di molecole di DNA di circa 500mila/1
milione/mm^2, Ion torrent, sempre di illumina, che arriva fino a 1.5 fentolitri, fino ad arrivare alle ultime versioni più
avanzate di illumina con volumi di circa 60aL, con densità 2milioni/mm^2.
The human genome project
Il sequenziamento dell’intero genoma è costato circa 4 miliardi di dollari e ci son voluti 13 anni, mentre NovaSeq è il
sequenziatore più avanzato di illumina, che in un paio d’ore dà lo stesso output di tutto il genoma umano. Quando c’è
uno sviluppo di questo tipo, non c’è solo un aumento incrementale, ma si parla di riduzioni di ordini e ordini di
grandezza, motivo per cui si parla di “rivoluzione genomica”.
Applicazioni e usi del DNA sequencing
Applicazioni nel campo oncologico, nella salute riproduttiva, tramite sequenziamento del DNA del feto dal sangue della
madre; malattie genetiche, nella microbiologia, nell’agricoltura e nella biologia molecolare e cellulare.
TECNOLOGIE DI SEQUENZIAMENTO – SHORT READS
FONDAMENTI DI SEQUENZIAMENTO BY SYNTHESIS
Nell sequenziamento by synthesis, si legge la sequenza di DNA di interesse sintetizzando il filamento complementare,
di queste tecnologie, l’illumina è la più famosa, ma ne esistono diverse,
Il principio fondamentale è che la polimerasi incorpora un nuovo nucleotide per creare il secondo strand, e questo
genera un segnale, che è misurabile con lo strumento che si sta utilizzando. Ci sono diversi tipi di tecniche con diversi
segnali, come la fluorescenza, ma non solo.
Attraverso questo processo, il problema è che con un singolo filamento e un singolo nucleotide inserito, il segnale è
talmente debole da non essere visto. Per risolvere ciò in diverse tecnologie di sequenziamento si va ad amplificare il
DNA in maniera clonale.
Il segnale può essere diverso, possiamo avere chemiluminescenza, il pH nella tecnologia Ion Torrent, l’incorporazione
del nucleotide genera un cambiamento di pH, o un segnale di corrente.
Tutte queste tecnologie che utilizzano l’amplificazione clonale, quando si parlerà di long reads, non c’è amplificazione
clonale, quindi si vede il segnale di una singola molecola inserita.
Nella tecnologia Illumina, Ion Torrent, si ha un segnale diverso a seconda della tecnica, che dev’essere amplificato,
utilizzando un sistema di amplificazione clonale, cioè tutte le copie uguali a quella di partenza, in questo modo durante
il sequenziamento si ottiene un segnale omogeneo più forte.
Come si mette il DNA in un sequenziatore? Se si estrae un DNA da una cellula, questo è troppo grande per
sequenziamento short reads, (illumina 300pb) va quindi inserito in un sistema che ci permetta di leggere dei
frammenti.
Una delle cose fondamentali della biologia molecolare, è l’inserimento di sequenze “handles” note all’estremità del
DNA, queste permettono di manipolare il DNA.
Se la sequenza è ignota, non si può fare la PCR, e quindi non si può amplificare, serve quindi l’inserimento di sequenze
note.
1
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42

Anteprima parziale del testo

Scarica Appunti di bioinformatica e più Dispense in PDF di Bioinformatica solo su Docsity!

BIOINFORMATICA

“I costi di sequenziamento sono scesi più velocemente della legge di Moore”, dal punto di vista dei microprocessori ha fatto questa osservazione empirica, che il numero di transistor in un circuito integrato raddoppia ogni due anni. Questa frase è usata come un benchmark per sottolineare un progresso tecnologico molto rapido. Le tecnologie che hanno permesso lo sviluppo dei microprocessori, sono le stesse che hanno prodotto, in grande parte, questo abbattimento dei costi, in particolare si parlerà di fotolitografia. In questo caso specifico il cross-over tra la tecnologia di fotolitografia sviluppata per i microprocessori, sono state poi esportate nell’ingegneria dei materiali di superficie, uno dei più grandi contributi nell’abbattimento dei costi. Dal 2001 a oggi si è passati da un costo di sequenziamento di 100 milioni a 100 dollari, a seconda del tipo di sequenziamento. Qual è il motivo di ciò?

  • Grazie ad una riduzione dei volumi di reazione per il sequenziamento.
  • Un aumento della densità di superficie con cui si riesce a sequenziare (la maggior parte avviene su superfici solide). La tecnologia di Sanger fu la prima, con centinaia di microlitri per reazione, seguita dal pirosequenziamento della roche 454, che utilizzava microcamere di reazioni con volumi di 20pl con una densità di circa 500/mm^2; con le prime versioni di sequencing by sequencing di Illumina si inizia a parlare di densità di molecole di DNA di circa 500mila/ milione/mm^2, Ion torrent, sempre di illumina, che arriva fino a 1.5 fentolitri, fino ad arrivare alle ultime versioni più avanzate di illumina con volumi di circa 60aL, con densità 2milioni/mm^2. The human genome project Il sequenziamento dell’intero genoma è costato circa 4 miliardi di dollari e ci son voluti 13 anni, mentre NovaSeq è il sequenziatore più avanzato di illumina, che in un paio d’ore dà lo stesso output di tutto il genoma umano. Quando c’è uno sviluppo di questo tipo, non c’è solo un aumento incrementale, ma si parla di riduzioni di ordini e ordini di grandezza, motivo per cui si parla di “rivoluzione genomica”. Applicazioni e usi del DNA sequencing Applicazioni nel campo oncologico, nella salute riproduttiva, tramite sequenziamento del DNA del feto dal sangue della madre; malattie genetiche, nella microbiologia, nell’agricoltura e nella biologia molecolare e cellulare.

TECNOLOGIE DI SEQUENZIAMENTO – SHORT READS

FONDAMENTI DI SEQUENZIAMENTO BY SYNTHESIS

Nell sequenziamento by synthesis, si legge la sequenza di DNA di interesse sintetizzando il filamento complementare, di queste tecnologie, l’illumina è la più famosa, ma ne esistono diverse, Il principio fondamentale è che la polimerasi incorpora un nuovo nucleotide per creare il secondo strand, e questo genera un segnale, che è misurabile con lo strumento che si sta utilizzando. Ci sono diversi tipi di tecniche con diversi segnali, come la fluorescenza, ma non solo. Attraverso questo processo, il problema è che con un singolo filamento e un singolo nucleotide inserito, il segnale è talmente debole da non essere visto. Per risolvere ciò in diverse tecnologie di sequenziamento si va ad amplificare il DNA in maniera clonale. Il segnale può essere diverso, possiamo avere chemiluminescenza, il pH nella tecnologia Ion Torrent, l’incorporazione del nucleotide genera un cambiamento di pH, o un segnale di corrente. Tutte queste tecnologie che utilizzano l’amplificazione clonale, quando si parlerà di long reads, non c’è amplificazione clonale, quindi si vede il segnale di una singola molecola inserita. Nella tecnologia Illumina, Ion Torrent, si ha un segnale diverso a seconda della tecnica, che dev’essere amplificato, utilizzando un sistema di amplificazione clonale, cioè tutte le copie uguali a quella di partenza, in questo modo durante il sequenziamento si ottiene un segnale omogeneo più forte. Come si mette il DNA in un sequenziatore? Se si estrae un DNA da una cellula, questo è troppo grande per sequenziamento short reads, (illumina 300pb) va quindi inserito in un sistema che ci permetta di leggere dei frammenti. Una delle cose fondamentali della biologia molecolare, è l’inserimento di sequenze “ handles ” note all’estremità del DNA, queste permettono di manipolare il DNA. Se la sequenza è ignota, non si può fare la PCR, e quindi non si può amplificare, serve quindi l’inserimento di sequenze note.

Nel caso di Illumina queste sequenze note si chiamano P5 e P7, che si trovano all’estremità della molecola di DNA che permettono il funzionamento del sequenziatore. Solo le molecole che hanno le estremità corrette sono visibili al sequenziatore, le altre non sono viste, per questo prendono il nome di “ sequencing legal ”. Questo processo avviene attraverso una reazione chiamata tagmentazione , che comprende tagging e frammentazione del DNA in input in una reazione singola, molto importante come reazione, viene utilizzata anche per visualizzare la cromatina accessibile in epigenetica. La frammentazione è indispensabile perché il sequenziatore Illumina legge solo molecole di 300 nucleotidi. Questa reazione, si basa sull’attività delle trasposasi, che hanno avuto un ruolo fondamentale nell’evoluzione dei genomi, ma sono anche stati utilizzati perché permettono di fare operazioni di biologia molecolare, in particolare c’è questa proteina Tn5 della trasposasi, che ha la proprietà di essere caricata con sequenze note, inserito nel DNA genomico, questa lo frammenta con quei due segmenti alle estremità. Ovviamente la lunghezza del frammento dipende da tante caratteristiche, tra cui quantità delle due componenti, tempi di reazione… che sono stati messi appunto per generare pezzi di DNA con 300pb e le giuste estremità. Questo tipo di reazione si chiama Nextera XT Library Prep nella letteratura di Illumina (nome commerciale). Le tecnologie di sequenziamento differenziano per la lunghezza delle reads che producono: la lunghezza del DNA di partenza varia a seconda da dove si estrae:

  • Se si estrae da cellule, ovviamente il DNA si frammenta nel processo, e si ottengono in genere frammenti fra i 10 e i 100 mila basi,
  • Se si estrae DNA da tessuti fissati in paraffina, quando si fa una biopsia, quando si estrae il DNA da questo materiali si ottengono pezzi più corti.
  • Poi c’è il cell-free DNA, che circola, come quello del feto nel sangue della madre. Al posto delle biopsie liquide, si può sequenziare il DNA tumorale che circola nel sangue. Per la lunghezza del DNA che può essere inserito nel sequenziatore:
  • Illumina 2x300 bp In genere anche quelle che sono short reads sono tra le 100-300 pb, quando si parla di decine di migliaia di basi, si parla di tecnologie long reads. Ci sono applicazioni che possono richiedere reads più lunghe o più corte, se ad esempio dobbiamo stimare l’espressione genica di tutti i geni del genoma umano, basta short reads, se vogliamo vedere tutte le isoforme di splicing del genoma umano, le shorts reads non bastano. Qualsiasi tipo di tecnologia ha vantaggi e svantaggi.

TECNOLOGIA ILLUMINA

Abbiamo una flow cell , come superficie, dove c’è un lawn di primer P5/P7, i cui complementi sulle molecole di DNA, che quindi vanno a legarsi, in modo che ci siano molte molecole di DNA sulla superficie. Poi avviene un bridge amplification che tramite cicli, produrrà copie in ciascun punto, formando molecole di DNA identiche. A partire da una molecola di DNA singola si ottengono dalle 1.000 alle 10.000 copie di DNA per cluster, perché sono gruppi di molecole di DNA identiche. Questo cluster permette di generare un segnale forte abbastanza per essere rilevato. In questa bridge amplification, le molecole di DNA formano un “ponte” tramite i complementi di P5 e P7 presenti all’estremità della molecola di DNA, andando ad ibridizzarsi al complementare sulla superficie, si va poi a sintetizzare il secondo filamento, si denatura, la copia a sua volta si ri-ibrida con un primer sulla superficie, e può avvenire nuovamente una reazione di polimerizzazione. Ci sono svariati motivi per cui la lunghezza di una reads è limitata a 300pb, uno dei motivi è che questo bridge non si può formare se la molecola è troppo lunga. Genomic DNA  fragmentazione  Add adaptors  blind to flow cell  bridge PCR  cluster formation  sequencing. Questi cluster di molecole amplificate localmente vengono anche chiamate “ polonies ”. Per far sì che possa essere inserito un nucleotide alla volta, è l’utilizzo di reversible dye terminator , nucleotidi sintetici che contengono un gruppo di blocking e un fluoroforo , si chiamano terminatori reversibili, perché entrambe queste cose devono essere rimosse, per leggere il segnale dei successivi nucleotidi. Anche il 3’ blocking group dev’essere reversibile, in modo che la polimerasi possa continuare. In questo modo si può incorporare solo un nucleotide per volta, e la rimozione di questo gruppo è fondamentale per far continuare la sintesi. C’è un composto, il TCEP, che taglia entrambi questi legami chimici. Ci sono due tipi chimica in questi sequenziatori Illumina:

  • Una a 4 colori, con colori per ogni nucleotide, quindi in ciascun ciclo appare un colore diverso.
  • Ottica: immagini della superficie della flow-cell.
  • Software analisi: converte l’immagine della superficie della flow-cell nelle identificazioni delle basi. Ci sono due tipi di strumenti:
  • Benchtop instruments: che sono quelli che si hanno in laboratorio (iSeq 100, MiniSeq, MiSeq Series, NextSeq 550 Series, NextSeq 1000 e 2000). Questi presentano diversi tempi di reazioni, diversi output in termini di lettere sequenziate, quante reads per run (da 4 milioni a 1,2 bilioni).
  • Production instruments: NovaSeq 6000 Series e NovaSeq X Series, danno output di 16terabite di dati, 52 miliardi di reads, un sequenziamento dura 48h. Vengono utilizzati nei centri che fanno molti sequenziamenti. I costi sono abbattuti, per campione, ma sono costi in aggregato. Come si fa a far correre tutti questi campioni insieme? Sample multiplexing per essere cost-effective, i sequenziatori devono essere eseguiti alla massima velocità. Spesso è necessario combinare più campioni in un'unica analisi. Ogni campione utilizza un codice a barre molecolare diverso chiamato indice, si tratta di sequenze artificiali che permettono di distinguere le varie sequenze. I campioni possono essere de-multiplexati dopo il sequenziamento utilizzando le informazioni dell'indice. Una piccola frazione di letture potrebbe essere assegnata in modo errato a causa di un fenomeno chiamato " index hopping ", alcuni di questi indici può saltare da una molecola all’altra per cui la molecola viene assegnata al campione sbagliata. Quando si effettua esistono più flussi di lavoro per le letture degli indici, con una possibilità mostrata qui. I flussi di lavoro di sequenziamento più complessi risultano quindi in 4 letture: 2 letture di sequenziamento, 2 letture di indice. EFFICIENZA DEL SEQUENZIAMENTO Perché le reads sono limitate a 300 nucleotidi? Il problema è chimico, quando si va a sequenziare non tutte le molecole nel ciclo sono allineate al 100%, questo perché la polimerasi e la rimozione del blocco della fluorescenza non sono efficienti al 100%, questa è una questione di probabilità, ovviamente più avanzano i cicli e più è probabile che da qualche parte ci sia un errore. Per cui la qualità del sequenziamento è sempre più alta nelle prime basi della reads e man a mano che si avanza il segnale di fluorescenza decade, gli errori si accumulano e il cluster non è più leggibile. Questo fenomeno prende il nome di: - Phasing: si riferisce a tutte le molecole che sono indietro rispetto al ciclo della maggioranza del cluster. - Pre-phasing : si riferisce a tutte le molecole che stanno avanti rispetto al ciclo della maggioranza del cluster. Non va confuso con il genome phasing , che si riferisce al problema di identificare i due differenti alleli quando si sequenzia un genoma diploide. Ovviamente questo fenomeno può essere quantificato, attraverso l’utilizzo di un Q (Phred) Score , che indica la probabilità che una specifica chiamata di base sia sbagliata. Questi Score sono logaritmici, ci sono dei file FastQ che contengono sia la sequenza che i Q Score per ogni base di quella sequenza. Una metrica spesso usata per questi punteggi, per riferirsi non alla specifica base della specifica read, ma per giudicare il sequenziamento nel suo complesso, c’è il Q30 Score che è la % di basi in tutto il sequenziamento che hanno un Q score maggiore o uguale a 30. Un altro fattore è il percentage of cluestes Passing Filter , i cluster di bassa qualità vengono esclusi dall’analisi, come cluster troppo vicini per essere letti in maniera corretta, la percentuale di cluster che Passing Filter (che sono utili e non esclusi) è un'altra misura di qualità metrica importante. Come si valuta la qualità di un cluster? la qualità del cluster viene valutata attraverso il chastity score , è definito come rapporto tra l'intensità della base più luminosa diviso per la somma delle intensità della base più luminosa e della seconda base più luminosa.

DNA NANOBALL SEQUENCING – MGI/COMPLETE GENOMICS

Questo sequenziamento è basato su DNA nanoball , si utilizza un altro metodo di amplificazione isotermica, che si chiama Rolling Circle Amplification , basata sulla polimerasi del fago P29. In questo tipo di sequenziamento si fa un inserto circolare con un primer noto, quando si ibridizza un primer, la polimerasi fa una copia del circolo, una volta fatto il giro questa polimerasi non si ferma, in quanto ha un attività strand displacement , fino ad ottenere una molecola di DNA lunghissima che contiene copie lineari dello stesso ciclo, che prende il nome di nanoball DNA.

Le singole nanoballs di DNA vengono quindi depositate su una flow-cell modellata con caratteristiche chimiche che legano il DNA. La tecnologia originale utilizzava il sequenziamento by ligation , dove il sequenziamento avviene per legame di oligo uno accanto all’altro per ricostruire il segmento, ma ora si è passati all' Sequencing by sintesys con terminatori coloranti reversibili (tecnica che utilizza Illumina). CLONAL DNA AMPLIFICATION BY EMULSION PCR Questa tecnica si basa sulla formazione di microscopiche goccioline d'acqua all'interno di un olio. Ciascuna gocciolina agisce come una camera di reazione microscopica contenente: un filamento di DNA, una biglia con primer attaccati e un mix per PCR. Questa è una tecnica generica utilizzata in più flussi di lavoro. Ogni biglia presenta una sola molecola di DNA, questo dipende dalla concentrazione relativa del DNA, se sufficientemente bassa, il numero di molecole di ciascun compartimento è governato dalla legge di Poisson, quindi se la densità è molto bassa, moltissime goccioline ne avranno zero, il resto una sola molecola, difficilmente di più. Questa biglia può essere sequenziata tramite la tecnologia Ion Torrent.

ION TORRENT SEQUENCING

Nella tecnologia di sequenziamento Ion Torrent, si sfrutta il rilascio di un atomo di idrogeno quando si ha l’incorporazione di una base, questo determina una variazione di pH. Andando a misurare questa variazione, che viene trasformata in un segnale elettrico, che viene misurato, e tramite questo possiamo determinare se la base è stata incorporata o meno. In questo caso non c’è un terminatore, ad ogni ciclo possono essere incorporate anche più basi se la regione è omopolimerica, a seconda dell’intensità posso determinare quante basi sono state introdotte. Tuttavia, questo segnale non è lineare, motivo per cui una delle limitazioni principali di questa tecnologia è un alto tasso di errore nelle regioni omopolimeriche. (figura a lato) Come si trasforma il pH in un segnale elettrico? L’idea è che ci sono dei transistor particolari chiamati Ion-Sensitive Field Effect Transitor (ISFET), un circuito integrato che converte la differenza di pH in segnale elettrico. Questo può essere implementato in un circuito integrato con la tecnologia CMOS ( Complementary Metal-Oxide Semiconductor ), stessa tecnologia usata dalle macchine fotografiche, che trasforma un segnale luminoso in un segnale elettrico. Per cui questi chip hanno tanti nano pozzetti in ognuno dei quali è presente una biglia che ha con se tante molecole di DNA identiche legate, e ciascun nano pozzetto avviene questa reazione che viene misurata dal transistor sulla base del pozzetto.

ANALISI DEI DATI DI SEQUENZIAMENTO

Quando si fa una reazione di sequenziamento genomico, ci sono due modalità fondamentali con cui si possono guardare i dati:

  • De novo assembly : a partire di un organismo di cui non si conosce il genoma e lo si vuole ricostruire da zero. Ricostruendo lunghi frammenti di sequenza (contig) mettendo insieme le letture in base alla loro sovrapposizione. L'assemblaggio de novo è necessario quando non esiste un genoma di riferimento su cui mappare. Le letture brevi sono assemblate in contigui. I contig vengono posizionati su scaffold utilizzando letture lunghe o letture brevi accoppiate di inserti di DNA lunghi (mate-pair). Le sequenze ripetitive rappresentano la maggiore complicazione in questo tipo di assemblaggio, perché ci sono varie ripetizioni: ripetizioni in centromeri e telomeri, trasposoni e sequenze derivate. Diversi tipi di letture vengono utilizzati dall'assemblatore per chiarire le ambiguità tra le alternative:  Short reads non forniscono informazioni sufficienti.  Letture brevi con inserti lunghi (mate-pair).  Long read.
  • Mapping to a reference : allineare ciascuna lettura a una sequenza genomica di riferimento esistente. Quest’ultima è molto più comune. A seconda che si sequenzi DNA o RNA, l’RNA sequencing serve per stimare l’espressione di un gene, mentre il DNA sequencing serve per fare cose come variant calling (identificare SNP, copy number variations).

Il chip di sequenziamento (Pacific Biosystems Single Molecule Real Time SMRT) contiene milioni di minuscoli pozzetti chiamati Zero-Mode Waveguides (ZMW) , disegnati in maniera tale da costringere la luce a seguire un certo percorso all’interno del chip. Una singola molecola di DNA polimerasi è immobilizzata sul fondo di ciascun pozzetto. I pozzetti hanno un diametro di circa 70nm e una profondità di 100nm. (fotolitografia) Il pozzetto è fatto in modo che la luce penetri solo nei primi 20-30 nm del pozzetto. Questo permette di fare imaging di un volume di 20 zeptolitri, in questo volume è possibile osservare l’attività di una singola polimerasi che include un singolo nucleotide fluorescente, l'intensità a diversa lunghezza d'onda di fluorescenza nel tempo ci fornisce la sequenza del modello. Uno dei problemi fondamentali di questa tecnologia è stata l’accuratezza, siccome il sistema è più complicato e la luce è più debole, uno dei sistemi che si sono inventati per risolvere tale problema è di fare un templato circolare per cui la polimerasi lo sequenza più volte, in modo da poter allineare le read e confrontarle per aumentare l’accuratezza. Questa tecnologia è in grado di generare con un elevata accuratezza reads di 10-25 kb. Inoltre, possono essere lette in maniera diretta alcune modificazioni epigenetiche. NANOPORE SEQUENCING Questa tecnica non rientra più nelle tecniche di sequencing by sinthesys, qui c’è una lettura diretta della sequenza del DNA senza sintesi del secondo filamento. Modulazione specifica della sequenza della corrente ionica attraverso il poro. Quando il DNA passa nel canale, cambia la differenza di potenziale tra le due parti del canale, in maniera sequenza specifica alle basi. Questi nanopori hanno una proteina motrice che si lega al DNA e spinge il DNA attraverso il nanoporo. Il problema di questa tecnologia è che l’error rate è molto più alto 6-15%, perché fare base calling è molto più complicato. Ci sono anche sequenziatori a basso costo, fra cui alcuni sono molto piccoli, però il base calling è più complicato. Oxford Nanopore Technologies:

  • Con questa tecnologia sono state dimostrate letture individuali fino a 2.273 Mb.
  • La lunghezza media di lettura è di circa 23Kb.
  • Il principale fattore che limita la lunghezza della lettura è l'estrazione e la preparazione del DNA di input ad alto peso molecolare, perché di solito si frammenta o degrada.
  • È possibile sequenziare l’RNA direttamente, cosa non possibile con altre tecnologie, perché si trasforma in cDNA.
  • Il base calling è più complesso e la precisione dipende fortemente dall’algoritmo utilizzato.
  • Questo metodo permette di sequenziare in maniera diretta modificazioni epigenetiche. Le applicazioni della long read sequencing sono diverse:
  • De-novo assembly genomes.
  • Genoma phasing: cioè determinare la sequenza dei cromosomi parentali individuali.
  • Sequenziamento mirato di regioni genomiche complesse.
  • Ricostruzione accurate di diverse isoforme di trascrizione.
  • Individuazione di varianti strutturali, importante in oncologia, nei tumori spesso ci sono Copy Number Variations significa che non c’è solo una mutazione puntiforme, ma ci sono situazioni in cui ci sono regioni intere del genoma, con geni oncogeni duplicate in blocco. Per cui le proteine vengono sintetizzate maggiormente.
  • Sequenziamento di regioni ad alto contenuto di C e G. Sequenziamento genoma umano Nel aprile del 2022 è stato finalmente completato la sequenza completa del genoma umana, da telomero a telomero. Per completare l’ultimo 8% del genoma umano è stato necessario quasi il doppio del tempo rispetto a sequenziare il primo 92%. Long-range structural variant detection and disease (rilevamento di varianti strutturali e malattie a lungo raggio) Un confronto degli stessi individui sequenziati con le piattaforme Illumina a lettura breve e PacBio a lettura lunga ha mostrato che il 47% delle delezioni e quasi il 78% degli inserimenti sono stati persi dal sequenziamento dell'intero genoma Illumina. La maggior parte dei guadagni in sensibilità coinvolgono varianti di dimensioni intermedie che vanno da 50 bp a 2kb di lunghezza.

Sono state identificate molte nuove variazioni strutturali associate alla malattia, comprese variazioni dovute all'inserimento di retrotrasposoni e all'espansione delle ripetizioni. Approfondimenti sulla diversità genetica e sull’evoluzione umana Il sequenziamento a lunga lettura di un modesto pannello di diversità di 15 genomi umani ha identificato quasi 100. varianti strutturali, la maggior parte dei quali erano precedentemente sconosciuti. Tra queste, le ripetizioni in tandem a numero variabile hanno dimostrato di essere quelle distribuite in modo meno casuale, con quasi la metà mappata agli ultimi 5 Mb di regioni subtelomeriche, probabilmente a causa dell'aumento dei tassi di rotture del doppio filamento in queste regioni. Il confronto dei genomi dei primati umani e non umani sequenziati con la tecnologia PacBio ha raddoppiato il numero di varianti strutturali associate alle differenze di espressione cerebrale specifiche del lignaggio umano e ha identificato cambiamenti su larga scala potenzialmente importanti nell'evoluzione delle scimmie antropomorfe. Uno degli obiettivi principali da raggiungere è la generazione di genomi diploidi di alta qualità, completamente in fase, in cui sono rappresentati entrambi gli aplotipi. Questa procedura converte un genoma umano collassato da 3 Gb in un genoma da 6 Gb che rappresenta sia il complemento materno che quello paterno. il sequenziamento diretto di modelli di DNA con le tecnologie PacBio e Nanopore sta espandendo il campo dell'epigenetica consentendo il rilevamento di modifiche precedentemente non riconosciute sull'RNA e sull'RNA in concomitanza con il sequenziamento.

HIGHLY MULTIPLEXED CYTOMETRY

Perché è importante un analisi single-cell? Se prendiamo ad esempio le cellule di una persona con un tumore, avremo un misto di tante cellule diverse, tumorali, sane, della vascolatura, linfociti… è un misto di tante cellule diverse. Quando si processa con RNA o DNA sequencing, si ottiene l’espressione media di tutte le cellule del campione. Se invece abbiamo la possibilità di sequenziare materiale genico di cellule diverse, avremo l’espressione delle singole cellule, con un risultato molto più informativo.

SINGLE-CELL ANALYSIS TECHNOLOGIES

Queste tecnologie possono essere classificate in tre categorie:

  • Citometria : prime ad essere inventate, misurano cellule in sospensione. Le cellule naturalmente in sospensione nel organismo umano sono le cellule nel sangue. Ciò ha dato un notevole contributo allo studio dell’immunologia.
  • Imaging : tecnologie in cui si ha un tessuto, in cui si vanno a fare delle misurazioni che danno informazioni sull’espressione di geni e proteine, in cui si va direttamente ad osservare al microscopio, oltre a vedere la cellula abbiamo anche la posizione delle singole cellule (Codex, MIBI, in situ hybridization (Nanostring, 10x), in situ sequencing).
  • Single cell genomics : sempre con cellule in sospensione, ma si usano tecnologie di sequenziamento in singola cellula (Single Cell RNAseq, ATAseq, TCRseq, BCRseq). FLUORESCENZA La fluorescenza è importante per queste tecniche. La luce è radiazione elettromagnetica che ha una certa lunghezza d’onda (distanza tra i due massimi dell’onda) ci sono alcune molte corte, altre molto alte. Più è piccola la lunghezza d’onda, più hanno alta energia e viceversa, i raggi gamma e X sono molto potenti e hanno una lunghezza d’onda molto corte, seguita dalla luce ultravisibile, visibile, infrarossa, microonde e onde radio. I fluorofori sono molecole che assorbono fotoni ad una certa lunghezza d’onda ed emettono fotoni ad un'altra lunghezza d’onda. Ovviamente, i fotoni che vengono emessi hanno energia più bassa di quelli assorbiti. Ci sono tantissime molecole con questa proprietà, le caratteristiche sono:
  • Qual è il massimo del loro spettro di eccitazione ed emissione, ovviamente non assorbono ed emettono a solo una lunghezza d’onda, ma in uno spettro, quello che si considera sono i picchi di assorbimento e di emissione.
  • Il Quantum yield , che corrisponde al numero di fotoni emessi per fotoni assorbiti. Serve a determinare quanto è efficiente il fluoroforo a riemettere la luce assorbita.
  • Lo Stokes shift differenza tra il massimo dell’eccitazione e dell’emissione. Ci sono diverse classi di fluorofori dal punto di vista chimico:
  • Piccole molecole, come la fluorescein.
  • Proteine (Green Fluorescent protein).
  • Quantum dots, nanostrutture che un core ferroso.

CYTOMETRY BY TIME OF FLIGHT

Un alternativa è rimpiazzare la luce con misure che sono più separate e che non hanno questo problema, si può usare la spettrometria di massa e si possono usare isotopi stabili di metalli rari, si hanno sempre picchi di misura ma più separati l’uno dall’altro. Questi isotopi sono misurati con la spettrometria di massa. Ripasso: Il numero di protoni in un nucleo atomico prende il nome di numero atomico ed è “l’identità” di un elemento. Il numero di massa è invece la somma di protoni e neutroni che sono in quell’atomo, possiamo diversi atomi con stesso numero atomico ma diverso numero di neutroni e si chiamano isotopi. Possono essere stabili o radioattivi, cioè, decadono in altri isotopi. Quelli stabili sono variazioni dello stesso elemento con numero di massa diverso. Per ciascun ione di metallo nel campione posso misurare la sua massa atomica e sapere quanti ioni di un isotopo e quanto di un altro ci sono in ciascuna cellula. CyTOF – Cytometry by Time of flight Il numero di massa di un atomo può essere misurato dal Time of Flight mass spectrometry , si usa un campo elettrico per accelerare degli ioni attraverso lo stesso potenziale elettrico. Un impulso elettrico definisce l'inizio della misurazione e fornisce l'accelerazione iniziale allo ione, viaggiono nello spazio e il tempo che impiegano ad arrivare alla fine è un indicazione del loro peso. Quindi se tutti gli ioni hanno la stessa carica, la loro velocità (e quindi il tempo di arrivo), dipende dalla loro massa. Questa misura è molto più precisa delle misure che si possono fare con la luce. Ciascun anticorpo è taggato con un isotopo specifico di un metallo raro, tutte queste cellule sono messe poi in un sistema Inductively Coupled Plasma Mass spectrometry , al cui interno è presente il plasma, un gas che attraverso un campo magnetico viene riscaldato ad altissime temperature (circa 6000K) quando le cellule vanno in questo gas, si atomizzano, e questi atomi vengono ionizzati, che vengono poi fatte passare in uno spettrometro Time of Flight, per cui misuriamo l’abbondanza dei vari isotopi. Gli ioni leggeri ed eccessivamente abbondanti vengono filtrati da un quadrupolo. Questo sistema si chiama CyTOF – Cytometry by Time of flight. Per taggare gli anticorpi con metalli rari, si sfrutta un chelante che ha una struttura tale da intrappolare l’atomo di metallo pesante in mezzo, si utilizza perché lo stesso chelante va bene per tutti i metalli rari. Su un anticorpo sono presenti polimeri di chelanti. Uno dei vantaggi di questo sistema:

  • La chimica è la stessa per tutti i canali di misura. Ogni fluoroforo ha proprietà diverse, in questo caso il polimero è sempre uguale e sul polimero poi si sceglie il metallo. È una tecnologia molto più flessibile.
  • Lo strumento ha circa 100 canali di misura diversa, può misurare 100 masse atomiche diverse.
  • Quasi non c’è spillover tra i canali, dipende dalla purezza degli istotopi. La limitazione principale:
  • È la chimica degli anticorpi, la coniugazione tra chelante e anticorpo avviene su residui di cisteina, si riducono parzialmente gli anticorpi.
  • Il tempo di acquisizione più lento, circa 400 cellule al secondo.
  • Più complessa la strumentazione, richiede una sorgente di argon ed una ventola di uscita. INTERPRETAZIONE DEI DATI OTTENUTI Ci sono tre sorgenti principali di variabilità di questo tipo di esperimenti:
  • La preparazione del campione, cioè quanto tempo è passato tra la raccolta del campione e la sua analisi.
  • Sensibilità dello strumento, che può essere regolata, strumenti diversi possono dare risultati diversi. Per correggere la sensibilità dello strumento, nella cytometry a fluorescenza, si possono usare delle biglie. Vengono utilizzate sfere sintetiche di riferimento che hanno un livello di fluorescenza costante e uniforme. Per la configurazione dello strumento, la potenza del laser e il guadagno del rivelatore vengono regolati in modo che la fluorescenza delle sfere rientri in un intervallo specificato. Per correggere la sensibilità dello strumento nella cytometria di massa si utilizzano delle biglie, la sensibilità dello strumento cambia durante l’acquisizione dei dati, in particolare decresce nel tempo. Le sfere di riferimento vengono miscelate e fatte funzionare insieme al campione. Ai dati viene applicato un fattore di correzione tale che l'intensità delle sfere rimanga costante nel tempo.
  • Staining con anticorpi, cioè gli errori di pipettaggio e le incongruenze modificano la quantità di anticorpo che viene erogato a ciascun campione. Un modo per risolvere questo problema è la barcoding , se ad esempio dobbiamo analizzare 3 campioni, se pipettando singolarmente ci aggiungiamo degli anticorpi, ci sarà questo errore, si può fare un pre-labeled di questi campioni con un reagente chimico aspecifico, che si lega al campione.

Prima di fare l’esperimento si mischiano questi campioni dopodiché si aggiunge l’anticorpo in una volta sola, ciò consente inoltre di risparmiare sul consumo di reagenti. Poi una volta acquisiti i dati, si possono separare le cellule in base al campione da cui venivano, in base all'intensità del reagente del barcoding. Gating : processo con cui individuo popolazioni di cellule di interesse nel campione. È un processo di selezione dei punti che cadono in una certa regione (gate) del grafico. Questo è un processo di selezione gerarchico. Le popolazioni sono definite dall’applicazione di filtri successivi. Questo processo diventa esponenzialmente più complicato all’aumentare del numero di marcatori rilevati. Qualche software per analizzare questo tipo di dati: FlowJo, Cytobank, CellEngine, FCD Expresse, (per aprire dati in R: R-flowCore package).

ALTRE STRUMENTAZIONI

Fluorescence activated cell sorting (FACS) La Fluorescence activated cell sorting serve a separare le cellule. In questo Le vibrazioni ad alta velocità sull'ugello rompono il flusso in goccioline contenenti singole cellule, qualcuna sarà vuota qualcuna no. Le cellule passano attraverso il laser e sulla base della fluorescenza, queste goccioline vengono caricate elettricamente in base alle porte di analisi definite dall'operatore. Le goccioline vengono deviate nei tubi di raccolta utilizzando le piastre di deflessione caricate elettricamente. Questa tecnica si può usare solo con tecnologie basate sulla fluorescenza. Imaging cytometry La citometria può anche essere equipaggiata con una camera per fare un imaging delle cellule. Ad esempio, se abbiamo un fattore di trascrizione, che quando attivo trasloca il nucleo, se misuriamo solo la fluorescenza del fattore, questa non cambia, con questo strumento possiamo distinguere se la proteina è nel citoplasma o nel nucleo. Ora è possibile anche il sorting basato su immagini.

HIGHLY MULTIPLEXED IMAGING TECHNOLOGIES

Questo tipo di tecnologie non dà informazioni solo sul fenotipo delle cellule (es. che proteine o geni esprimono) ma anche informazioni spaziali, di dove le cellule sono nel tessuto. Inoltre, con questo tipo di tecniche è possibile rilevare, anche contemporaneamente, sia le proteine (tramite anticorpi) che l'RNA. Il goal principale dello sviluppo tecnologico in questa area è quello di aumentare il numero di cose simultanee che si possono misurare (plexity). TRADITIONAL IMMUNOHISTOCHEMISTRY Nell’immunoistochimica tradizionale si va a estrarre un pezzo di tessuto, che viene fissato con formalina, viene poi messo in un blocco di paraffina, in modo da mantenere il tessuto. Per l’analisi si utilizza il microtopo, che taglia una fetta sottilissima del tessuto, si mette su un vetrino, si fa uno screening, con un colorante per ciò che si vuole andare a guardare. Un particolare tipo di screening per una proteina, si utilizza un anticorpo primario che si lega alla proteina di interesse, dopodiché si aggiunge un anticorpo secondario che si lega all’anticorpo primario, e ha un enzima (perossidasi o fosfatasi alcalina) coniugato, aggiungendo il substrato l’enzima lo trasforma dando un segnale. flussi di lavoro simili possono essere eseguiti con anticorpi fluorescenti. Come si aumenta il numero di target? Cambia il metodo di rilevazione. Dobbiamo affrontare i limiti della luce come piattaforma di misurazione, perché, se utilizziamo anticorpi fluorescenti si possono mettere più anticorpi fluorescenti, dove ognuno ha un colore diverso. Tuttavia, per la fluorescenza rimane il problema della sovrapposizione di spettri. Ci sono differenti strategie, alcune già viste in citometria:

  • Spectral unmixing: si può misurare tutto lo spettro della luce e deconvolverlo.
  • Tecnologie che usano la spettrometria di massa.
  • Separare i segnali di fluorescenza nel tempo (Separating fluorescence signals in time), si può fare con i tessuti ma non con esperimenti di citometria. Tyramide singal amplification La tyramide signal amplification anche qui si utilizza l’anticorpo primario per legare il target, e un anticorpo secondario con un enzima coniugato, per questo si utilizza come substrato composti di tiramide (modifica tirosina), quando l’enzima reagisce con questo, crea un radicale che si lega ai residui di tirosina sul campione, in corrispondenza dell’anticorpo. In presenza di H2O2, la perossidasi di rafano converte i substrati tiramidici marcati in radicali tiramidici altamente reattivi e di breve durata. I radicali si legano ai residui di tirosina prossimali alla sede dell'enzima, depositando così il marcatore.

Questo CODEX è commercializzato da PhenoCycler by Akoya Biosciences. Lo strumento è essenzialmente una combinazione di un microscopio convenzionale con un sistema di fluidica automatizzato. Rispetto a OPAL in questo metodo lo screening è fatto tutto insieme, ma l’imaging è fatto in cicli, in opal è il contrario invece, questa soluzione in codex è migliore perché con questi cicli di stripping e annealing degli anticorpi il tessuto si rovina per cui in questo modo, tutti gli anticorpi hanno la stessa change di legarsi.

DETECTION DI ACIDI NUCLEICI

FLUORESCENCE IN-SITU HYBRIDIZATION (FISH)

Uno degli svantaggi delle tecnologie basate su anticorpi è che innanzitutto bisogna avere l’anticorpo per il target di interesse, che funzioni bene nel saggio che si sta facendo, quindi gli anticorpi hanno limitazioni, inoltre, costano. Quando si deve riconoscere una sequenza nucleotidica, la cosa è più semplice, si sa la sequenza che si vuole riconoscere si ordina un oligo complementare, che cosa meno di un anticorpo, e questo funge da sonda andando a ibridizzare il target. Nella FISH o Fluorescence in situ hybridization si utilizza una sonda fluorescente di DNA utilizzata per ibridizzarsi a una regione genomica di interesse. Questa tecnologia è molto usata nella diagnostica, ad esempio per visualizzare anomalie nei cariotipi, e per vedere variazioni nel numero di copy number di geni (oncogeni), nel cancro molto spesso ci sono riarrangiamenti genomici che fanno sì che ci siano diverse copie di geni oncogeni che vengono amplificati (es. EGFR, epitelian grow factor). Per vedere più geni alla volta una limitazione è la fluorescenza, in questo caso tutti i sistemi che esistono utilizzano come trucco quello di separare la fluorescenza nel tempo. Abbiamo il linear decoding (misura l’RNA), si può disegnare un sistema che permetta di fare una serie di cicli di imaging e ciascun gene compare con un colore diverso nei vari cicli, in modo da avere un pattern unico per ciascun gene. Il vantaggio è che ciascun ciclo si ha un numero ridotto di canali di fluorescenza. Il sistema è disegnato in maniera tale che si hanno una serie di sequenze sintetiche che permettono di far sì che la sonda per il gene A diventi blu nel primo ciclo, verde nel secondo e così via.. L’efficienza è intorno al 20/25%, inoltre due sonde per due geni diversi potrebbero avere efficienza diversa, magari una sonda è più efficiente dell’altra, oppure l’RNA target è complessato con proteine, per cui è difficile per la sonda accedervi. Non è quindi possibile quantificare in assoluto la differenza tra due geni, è più una differenza relativa. È una procedura molto simile al sequenziamento, anche lì si avevano fluorescenze diverse ad ogni ciclo, ma nel caso del sequenziamento la fluorescenza corrisponde ad una singola base, qui invece si utilizzano barcodes, quindi non sono singole basi, ma sequenze sintetiche. Per la rilevazione del RNA, una singola sonda non basta a generare un segnale di fluorescenza abbastanza forte perché, se si ha un oligo che si ibridizza alla molecola bersaglio, con un solo fluoroforo, questo non genera un intensità abbastanza forte per la rilevazione. Le principali differenze tra le tecnologie in-situ che utilizzano una variazione del principio del linear decoding (seguono negli appunti), sta nel come viene fatta l’amplificazione del segnale e nei dettagli di come son costruite queste sequenze sintetiche. CosMx – Nanostring technologies La CosMx utilizza come metodo per l’amplificazione del segnale la branched DNA aplification, sfrutta una sonda che lega l’RNA di interesse e per amplificare questo segnale, si utilizza un’altra molecola di DNA che ibridizza sulla sonda e su questa molecola di DNA ci sono tanti siti di ibridazione per altre molecole di DNA, che a loro volta hanno siti di ibridazione per un oligo fluorescente. Quindi l’amplificazione del segnale avviene tramite una struttura di DNA ramificato. Questi branched presentano nucleotidi che sono sensibili agli UV, quindi tramite trattamento con UV vengono rimossi, rimuovendo il segnale. Xenium – 10X Genomics In Xenium l’amplificazione del segnale avviene con sonde padlock e con rolling circle amplification. In particolare, queste padlock probes sono delle sonde che si ibridizzano in maniera circolare sul target di interesse, poi si può aggiungere una ligasi che lega e fa un cerchio di DNA chiuso, si può usare un enzima, pi29polimase, che fa questa rolling circle amplification, si mette un primer per una sequenza presente sul circle e l’enzima, in questo modo si forma una DNA nanoball in corrispondenza di dove si è legata la sonda, in questo modo otteniamo molte copie della sequenza di rilevamento. Uno dei vantaggi di queste probes è che sono molto specifiche, la ligasi liga solo dove c’è una perfetta complementarità. Il decoding di questo meccanismo non è del tutto chiaro, ci sono comunque due possibilità:

 Viene utilizzato un sistema con una sonda bridge con dei fluorofori che si legano a questo bridge, e queste sono diversi ad ogni ciclo, in modo da arrivare ad una situazione in cui ogni gene ha un pattern di fluorescenze specifiche. Dopo questa amplificazione, non abbiamo un solo fluoroforo che si lega, ma molti di più.  Un’altra tecnologia sfrutta la Sequencing by ligation , ligando coppie di nucleotidi affidandosi alla specificità della ligasi. MERFISH - Vizgen Nella MERFISH l’amplificazione del segnale si basa sull’utilizzo invece che di una sola sonda o un numero limitato, per il gene di interesse, si hanno molte sonde per ciascun gene. Quindi l’amplificazione viene eseguita utilizzando un gran numero di sonde per ciascuna specie di RNA bersaglio. Ogni sonda ha due diverse sequenze readout per la rilevazione da parte degli oligo fluorescenti.

SPATIAL TRANSCRIPTOMICS USING BARCODES OLIGO SURFACE

Tutte le tecniche appena viste utilizzano le sonde, scegliendo a priori le sequenze che voglio individuare, in questa tecnica, si utilizzano vetrini per microscopia spottati con oligo, ciascuno con un barcodes spaziale univoco. L'RNA del tessuto viene catturato sullo spot e retrotrascritto. I barcodes forniscono informazioni spaziali seguendo una sequenza standard short read. Commercializzato come Visium da 10X genomics. Il problema di questa tecnologia è che non è una vera e propria tecnologia single cell, in quanto:  Gli spot non sono allineati alle cellule.  Più cellule possono può corrispondere ad un unico spot.  Diffusione dell’RNA dalle cellule vicine.

TECHNOLOGIES FOR SINGLE-CELL GENOMICS

Tutti questi approcci sono basati sulla creazione di librerie di sequenziamento aventi un barcodes che identifica la cellula di origine. Per raggiungere questo obiettivo è necessario separare fisicamente il contenuto di acidi nucleici di ciascuna cellula. Il modo in cui le celle sono fisicamente separate e codificate con codici a barre rappresenta il principale elemento di differenziazione tra le tecnologie. La biologia molecolare della preparazione delle librerie è relativamente simile. Con il passare del tempo e il progresso tecnologico è aumentato il numero di cellule che è possibile sequenziare in un esperimento. Con le ultime tecnologie si riesce ad arrivare a centinaia di migliaia, anche milioni di cellule. È importante avere sequenze note all’estremità della sequenza, qui troviamo reazioni di template switching , questa reazione è usata per aggiungere sequenze note alla fine di una reazione di retro-trascrizione (da RNA a cDNA). Questa reazione è particolarmente utilizzata per la preparazione di librerie di RNA. Si basa sul non-template addition by reverse transcriptase MMLV, un virus, questa trascrittasi quando arriva alla fine del templato di RNA aggiunge una serie di residui, in genere di C. Dopodiché si può aggiungere nella reazione un altro oligo, che si chiama template switch oligo, che parte con una serie di G, quindi si appaia e la polimerasi cambia templato, non utilizza più l’RNA, ma questo oligo, per cui continua.

scRNAseq BY SORTING CELLS INTO PLATES

Tra i sistemi più semplici per isolare le cellule, abbiamo FACS viene utilizzato per smistare le singole cellule nei pozzetti di una piastra per microtitolazione, in ciascun pozzetto si effettua una reazione di library prep, sintesi cDNA, PCR e così si ottengono le librerie che poi possono essere mischiate e messe sul sequenziatore. Questo sistema è limitato a qualche centinaio di cellule, infatti, questo metodo non viene più utilizzato. Nonostante ciò, i protocolli di preparazione delle librerie sono molto efficienti e possono profilare singole cellule con elevata sensibilità. La soft litografia viene chiamata così in quanto sono stampati materiali morbidi. La fotolitografia è lo stesso approccio che è utilizzato per fabbricare circuiti integrati come microprocessori. Si ha una superficie che è ricoperta con un materiale fotosensibile chiamato fotoresistente. L'esposizione alla luce modifica le proprietà chimiche del materiale resistente rendendolo sensibile o resistente alla degradazione chimica. La luce viene modellata secondo la forma della struttura desiderata. L'applicazione di un solvente determina lo sviluppo di una superficie incisa. La superficie incisa può essere ricoperta con un altro polimero (ad esempio polidimetilsilossano, PDMS) per formare un materiale morbido "stampato" con la struttura desiderata. Questo materiale PDMS può essere utilizzato per costruire delle valvole. In particolare, un ulteriore strato di materiale morbido può essere utilizzato per creare valvole pneumatiche. L'attivazione della valvola tramite la pressione dell'aria espande il canale della valvola e restringe il canale del fluido, bloccando il flusso dei reagenti.

processo di risoluzione dei duplicati si chiama collapsing , tutte le read che hanno lo stesso UMI vengono collassate in un'unica read, perché corrispondevano a un'unica molecola di partenza.

MICRO-WELL BASED METHODS – RD Rhapsody

Le cellule vengono depositate, con bassa densità, in modo da avere una cellula o nessuna, in micropozzetti individuali, caricati con biglie di cattura dell'acido nucleico barcode. Può catturare fino a 320.000 celle per cartuccia. Si può anche fare l’imaging dei pozzetti, ad esempio per il controllo di qualità. Il principio è sempre lo stesso, in questo caso invece di essere isolate in un emulsione di olio e acqua, vengono isolate su una superficie con pozzetti. Principles of split-pool synthesis Il principles of split-pool synthesis è un sistema che serve a generare un gran numero di molecole diverse con un numero ridotto di reazioni. Si basa sulla presenza di una biglia o un supporto fisico, in cui si inizia la reazione, poi si hanno una serie di pozzetti. Al primo ciclo si inserisce ciascuna biglia in un pozzetto e poi si inserisce un monomero diverso, al ciclo successivo si mettono le biglie tutte insieme e poi si ridistribuiscono nei pozzetti, al primo monomero che c’era prima ci si aggiunge il monomero che c’era in quel pozzetto. Ciascuna biglia adesso avrà due monomeri, continuando con questi cicli. Il prodotto finale sintetizzato dipende dall'ordine sequenziale in cui ciascuna sfera ha viaggiato attraverso i recipienti di reazione. Lo stesso principio può essere usato per barcodare delle cellule, il supporto in questo caso non è la biglia, ma la cellula, ciascuna contiene RNA, quindi la cellula è quella che muove l’RNA tra un pozzetto all’altro. Ci sono diverse varianti di questo approccio che differiscono nella biologia molecolare dell’aggiunta dei barcodes. Commercializzata da Scale e Parse. La necessità di mantenere cellule/nuclei intatti durante il processo pone ulteriori sfide, per esempio, non è possibile utilizzare tamponi di ibridazione aggressivi, limitando quindi l’accessibilità dei reagenti e quindi l’efficienza del metodo. Uno dei vantaggi è che è un sistema molto economico, non si ha bisogno di una nessuna strumentazione particolare. Questo sequenziamento si può fare sia in singola cellula che in singoli nuclei, in generale le sospensioni unicellulari possono essere preparate solo da tessuto fresco. Per fare questo tipo di sequenziamento, a partire da un tessuto di partenza, la prima cosa da fare è disgregarlo in cellule singole, per far ciò si utilizza sistemi enzimatici, meccanici… è un processo chimico e fisico che disassocia il tessuto, ciò è possibile solo con tessuto fresco, ciò rappresenta un’enorme sfida logistica negli studi clinici, perché i laboratori ospedalieri in genere non hanno le risorse per condurre questo tipo di esperimenti. Al contrario, la preparazione dei nuclei può essere ottenuta da un tessuto congelato. Lo svantaggio di utilizzare i nuclei è che la sensibilità si riduce ulteriormente, poiché nei nuclei c’è meno RNA, è più complicato dal punto di vista del sequenziamento, in quanto ci sono anche RNA non maturi.

CITE-seq

È una tecnologia che serve ad utilizzare il single cell sequencing per misurare proteine, invece che per misurare RNA. La stessa strategia che abbiamo già visto per l'indicizzazione degli anticorpi con barcode oligo (CODEX) può essere applicata per la misurazione diretta degli anticorpi legati mediante sequenziamento. La sequenza di cattura può essere sostituita con qualcosa di diverso dal poli-A per non interferire con la cattura dell'mRNA. Il vantaggio di questa tecnologia è che, quando si va a sequenziare, si può contare quante volte è comparso il barcode e questo ci dice l’abbondanza della proteina. Si può anche fare contemporaneamente RNA-seq. SENSIBILITÀ La sensibilità è una sfida e un compromesso con la produttività. L'mRNAseq a cellula singola di N cellule non equivale ad avere N set di dati sfusi. Ma ciò che otteniamo con la maggior parte di queste tecnologie è un quadro relativamente superficiale del trascrittoma di ogni cellula. Quando si fa RNAseq di un tessuto, si può avere un deep sequencing e misurare diversi aspetti di quel tessuto, quando si fa quest’altro tipo di tecnica, dal momento che il materiale di partenza è molto più limitato, tutte queste tecnologie sono molto più complicate, ciò che si ottiene è una “fotografia” più superficiale di quella del trascrittoma di ogni cellula. Queste tecnologie, come quella next? Genomics nei droplets, quando son partiti la sensibilità era circa del 10%, adesso questo numero è più alto, intorno al 35%, ma comunque non del 100%, quindi i geni più abbondanti si misurano, quelli meno abbondanti no.

In genere, i metodi basati sulla cattura microfluidica o sull’isolamento delle singole cellule, hanno una sensibilità molto maggiore (anche se ora non le usa più nessuno). Tuttavia, sono anche limitati nella produttività (ovvero nel numero totale di cellule analizzate). Il confronto della sensibilità tra due metodi deve essere sempre effettuato in funzione della profondità (in termini di numero di reads per cellula) di sequenziamento per cellula. La profondità del sequenziamento è semplicemente una funzione di quanto vuoi spendere per il sequenziamento. Più cellule sono presenti nell'esperimento, più sarà necessario sequenziarle per ottenere lo stesso livello di sensibilità. La sensibilità effettiva dipende in ultima analisi dalla complessità della libreria di input, ovvero da quante diverse molecole di mRNA sono state originariamente catturate. Quindi, la vera sensibilità del metodo non è quanto ho sequenziato, ma quante molecole di mRNA originali il metodo ha catturato. i metodi più sensibili sono quelli basati sulla preparazione delle librerie nel chip microfluidica Fluidigm C1. Quindi gli UMI sono quelli che ci permettono di misurare la sensibilità del metodo e la complessità della library di partenza, perché quanto si sequenzia dipende dalle PCR che si fanno e quanti soldi spendere. Nella libreria ci sono un numero finito di UMI, perché il numero di UMI che sono nel campione dipende da quanti UMI sono stati catturati nel processo di preparazione del campione. Questa misura che si chiama sequencing saturation che è uguale a: 1 - il numero di read uniche(UMI)/ numero totale di reads. All’aumentare del numero di reads per cellula, la sequencing saturation aumenta fino ad arrivare ad un certo plateau, questa è una misura di quanto, se si sequenzia di più si ottiene più UMI. Questa è una misura molto importante della complessità di una biblioteca. Più sequenziamo, più iniziamo a vedere le stesse UMI. Questa misura fornisce un'indicazione di quante più molecole (cioè UMI distinte) identificheremmo se continuassimo a sequenziare, misura che non raggiungerà mai 1. a causa della sensibilità limitata, la matrice (ovvero l’output che è una matrice in cui ogni riga corrisponde ad una cellula e ogni colonna ad un gene) di espressione cellula per gene contiene molti zeri (quadrati bianchi, vuol dire che i dati sono “sparsi”). La mancata rilevazione del gene per ragioni tecniche (cioè non biologiche) è chiamata "dropout". Questa è una differenza fondamentale con la citometria dove "assenza di prove" solitamente significa "evidenza di assenza".

TECHNOLOGIES FOR THE ANALYSIS OF EPIGENETICS

Il DNA eucariotico è impacchettato in una struttura estremamente complessa intorno agli istoni (complessi proteici con 8 proteine), questi sono compattati in fibre di nucleosomi, questi formano dei loop che si ripiegano a formare il cromosoma. La struttura della cromatina ha un ruolo fondamentale nel modulare l’espressione genica, ad esempio il fattore di trascrizione deve essere in grado di trovare la sua sequenza target, l’RNA polimerasi quando trascrive un gene ha bisogno di spacchettare il DNA per trascriverlo. Le modificazioni chimiche sia della cromatina, che delle proteine leganti il DNA, svolgono un ruolo cruciale nella modulazione della funzione della cromatina e quindi nella regolazione dell'espressione genica (es. ci sono delle modificazioni istoniche che fanno sì che la cromatina sia più rilassata e di conseguenza più accessibile, ma anche modificazioni con modulazione inversa). Il genoma accessibile comprende il 2-3% della sequenza totale di DNA, però contiene più del 90% delle regioni legate da fattori di trascrizione. La definizione classica di epigenetica sta cambiando, la definizione classica è “lo studio di fenotipi ereditabili che non comprendono alterazioni della sequenza di DNA”. In realtà la definizione rivista è “tutta l’informazione portata dal genoma che non è codificata dal DNA”. La differenza fondamentale sta nel discorso di ereditarietà, cioè alcune di queste informazioni potrebbero non essere ereditabile. Come si fa a capire quali regioni del genoma sono accessibili o no?

  • DNase-seq : si basa sul fatto che la DNasi I può tagliare solo la cromatina accessibile. Si fa poi un sequenziamento e tutte le read si andranno ad impilare nelle regioni di DNA accessibile. Questo sistema ha diverse limitazioni, in particolare, la quantità dell'enzima e la durata dell'incubazione devono essere titolate accuratamente, sennò si va a degradare tutto. Inoltre, è richiesta una grande quantità (decine di milioni) di celle di input, non si può quindi fare su una biopsia. E il protocollo è lungo. Quando si fa questo tipo di esperimenti, le reads si accumulano, cioè si vanno a sequenziare solo quelle regioni accessibili, quindi quando si vanno a mappare sul genoma, tutte le reads si concentrano in quelle regioni e molte meno in quelle non accessibili. Questo accumulo di reads definisce delle regioni di interesse

Il problema di questa tecnica è che il protocollo è dispendioso in termini di tempo e richiede molto materiale di input. A partire da questa è stata sviluppata in alternativa più semplice che si chiama cut&run. I nuclei sono immobilizzati su sfere magnetiche rivestite di lectina. Gli anticorpi per il fattore di trascrizione (o comunque la proteina) di interesse si diffondono nel nucleo insieme ad una proteina di fusione della Nuclease Micrococcale e della proteina A (una proteina che lega gli anticorpi). Questa proteina di fusione si va a legare all’anticorpo, la reazione di scissione, ad opera della MNase I, viene avviata mediante l'aggiunta di calcio, e taglia il DNA solo dove stava l’anticorpo. La proteina A dirige l'attività della nucleasi sui complessi TF/DNA legati agli anticorpi. La regione di DNA di interesse viene eluita e sequenziata.

STRUTTURA TRIDIMENSIONALE DEL GENOMA

Tutte le modificazioni del genoma misurate con tecniche epigenetica ci danno dei dati grezzi, questi dati possono essere integrati a più alto livello per definire diversi stati della cromatina. La cromatina può essere distinta in eterocromatina costitutiva, che sono quelle regioni sempre chiuse, l’eucromatina, che corrisponde a regioni aperte, le regioni poised, che hanno uno stato intermedio, mezze aperte e mezze chiuse, sono spesso geni legati allo sviluppo, al differenziamento cellulare, che devono essere in una situazione metastabile. Tutti i dati grezzi sono stati integrati per definire delle categorie di più alto livello, più semplici da interpretare (promotore attivo, debole, poised, enacher forte, poised…). Lo stato della cromatina dipende dall’aggregazione di tutte queste parti, e si sviluppa un modello computazionale che integra tutti questi dati, per classificare ciascuna regione. Nelle regioni che sono strong enancher il 96% delle regioni hanno monometilazione della lisina 4 dell’istone H3, fa vedere quindi le percentuali di ciascuna di quel tipo di cromatina che hanno quella determinata caratteristica. Il landscape della cromatina è molto dinamico tra tessuti e stati di sviluppo. Il dataset avrà tre assi: uno per il tipo di misurazione epigenetica che si fa, un asse è il tessuto in cui si fa e l’ultimo asse è il tempo di sviluppo. La cromatina nel nucleo ha anche una struttura tridimensionale nel nucleo, che ne influenza la funzione. Ci sono dei cromosomi, questi in interfase si ripiegano in due compartimenti, A e B, che consistono rispettivamente di regioni prevalentemente gene-attive e gene-inattive. Parti di compartimenti, provenienti dallo stesso cromosoma o da cromosomi diversi, possono unirsi e creare hub, che sono collegati da molteplici interazioni cromatiniche, condividendo così una funzione comune (ad esempio, la repressione genetica) e coalizzandosi attorno a diversi corpi nucleari. Le interazioni della cromatina sono arricchite all'interno di domini di 100kb-1Mb di lunghezza chiamati domini di associazione topologica (TAD ). Questi domini parzialmente isolati sono suddivisi in nanodomini di cromatina più piccoli (CND). L'estrusione del loop di cromatina è mediata da complessi di coesione, che interagiscono con il fattore legante CCCTC (CTCF) e delimitano i confini del TAD. I TAD possono facilitare la formazione di contatti promotori-potenziatori all'interno dei loro confini. L’organizzazione 3D della cromatina ha a che fare con la regolazione dell’espressione genica, a livello molto alto, interi segmenti di cromosomi possono essere più vicini alla lamina nucleare o al centro del nucleo e questo definisce se sono attivi o meno. Inoltre, grossi segmenti di cromosoma si possono trovare in regioni del nucleo particolarmente attive dal punto di vista trascrizionale. A livello dei domini cromosomici stessi, per prevenire interazioni tra enancher e promotori, che non devono esistere, i cromosomi sono divisi in loop cromosomici o in domini tali che le possano interagire solo all’interno del dominio e non tra domini diversi. Per studiare l’archittettura 3D della cromatina, ci sono un paio di modi:

  • Chromosome conformation capture based methods , questi metodi sono basati su un crosslinking chimico di frammenti di cromatina spazialmente vicine. In questo modo si forma un complesso tra proteine vicine nello spazio, che legano la cromatina. Dopodiché il DNA viene digerito e si forma una sorta di frammento a X, è possibile poi tramite un processo enzimatico riunire questi filamenti, formando una struttura 8 che poi possiamo sequenziare e questo ci permette di capire che quelle due sequenze erano vicine. La differenza tra i vari metodi sta: nei protocolli di crosslinking, nei metodi di digestione/frammentazione, pulled-down di specifiche proteine, alcune volte questi esperimenti sono fatti in genome-wilde altre volte arricchendo con specifiche sequenze se si è interessati a vedere l’interazione tra due regioni specifiche. In figura come vengono visualizzati i dati.

Super-resolution microscopy: in un esperimento normale di microscopia, lo scattering e la diffrazione della luce limita la risoluzione laterale a circa 250nm. Ci sono tre modi per aumentare la risoluzione:

  • Structured Illumination Microscopy: si utilizzano diversi angoli e fasi della luce, attraverso poi la trasformata di Fourier, si riesce ad avere un immagine più precisa.
  • Single-Molecule Localization Microscopy: basata su fluorofori che emettono in maniera stocastica (casuale), nel tempo si raccolgono le informazioni.
  • Stimulated Emission Depletion (STED): basata utilizzare due laser, in maniera di sopprimere l’alone con l’altro laser.

ANALYSIS OF MULTIVARIATE DATA

Tutte le tecnologie ci danno informazioni su tantissime proteine o geni… per cui tutti questi risultati devono essere organizzati in tabelle, features (ovvero cosa si è misurato) → e le osservazioni ↓. Per fare un esempio, facciamo finta che le osservazioni sono i campioni (righe) e i features l’espressione del gene (colonne). Partiamo da due task importanti:

  • Identificare gruppi di osservazioni simili. In caso dell’espressione genica si tratta di gruppi di campioni che hanno un profilo simile di espressione genica, ad esempio si è analizzati 10 campioni tumorali e 10 sani, questi avranno espressione simile tra loro e diversa nei due gruppi. Questo è tutto ciò che riguarda il clustering.
  • Visualizzazione (plotting) dei dati in due dimensioni. Si parlerà di dimensionality reduction. Ci sono un sacco di concetti fondamentali che queste due task hanno in comune. Ci sono due linguaggi di programmazione e sviluppo per fare l’analisi statistica:
  • R : ottimo per fare tutto ciò che riguarda plotting/exploratory data analysis, statistical modeling (modelli lineari, lineari generalizzati…), analysis of biological data (ci sono tantissime librerie e pacchetti) e intergration with biological databases (se si vuole scaricare tutte le informazioni in merito a qualcosa, ha un sacco di funzionalità per integrarsi con database). La limitazione di R è che non è un linguaggio di programmazione general purpose (programmi che non hanno a che fare con l’analisi dei dati).
  • Python: si tratta di un general-purpose programming, è ottimo per Machine Learning (Deep Learning in particular), e analysis of imaging data. IDENTIFICAZIONE DI OSSERVAZIONI SIMILI Possiamo immaginare che ogni campione sia un punto in uno spazio multi-dimensionale, dove il numero di dimensioni corrisponde al numero di caratteristiche misurate. Ad esempio, se abbiamo misurato l’espressione di due geni, ciascun campione si può immaginare come un punto nello spazio bidimensionale, dove un asse rappresenta un gene e un altro asse l’altro gene. La similarità tra due osservazioni corrisponde alla distanza tra loro nello spazio P-dimensionale definito dai features. Due campioni vicini sono simili, sulla base di tutte le cose che si sono misurate; se due campioni sono lontani nello spazio sono dissimili. Come si misura la distanza (o similarità)?
  • Distanza Euclidea : è la lunghezza della linea che connette i due punti, e la sua formula deriva dal teorema di Pitagora. Questa distanza può essere generalizzata a qualsiasi numero di dimensioni.
  • Cosine similarity/distance : ogni osservazione definisce un punto (e quindi un vettore) in uno spazio P-dimensionale. Questa tra due osservazioni non è altro che il coseno dell’angolo tra i vettori. Quindi questa misura, quindi, varia tra -1 e 1. Anche questa può essere generalizzata a qualsiasi numero di dimensioni. La cosine distance = 1 – cosine similiarity. Pearson correlation La pearson correlation è una misura statistica della co-linearità tra due variabili. Quando la correlazione è -1 significa che queste due variabili sono co-lineari, cioè quando un aumenta l’altra diminuisce, se la correlazione è positiva invece quando una aumenta, aumenta anche l’altra. Quando questo numero è compreso tra -1 e 0 o tra 0 e +1 sono casi intermedi in cui questi punti più o meno aumentano o diminuiscono ma non sono co-lineari poiché non sono su una