


























































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
appunti completi per esame di bioinformatica.
Tipologia: Dispense
1 / 66
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!



























































“I costi di sequenziamento sono scesi più velocemente della legge di Moore”, dal punto di vista dei microprocessori ha fatto questa osservazione empirica, che il numero di transistor in un circuito integrato raddoppia ogni due anni. Questa frase è usata come un benchmark per sottolineare un progresso tecnologico molto rapido. Le tecnologie che hanno permesso lo sviluppo dei microprocessori, sono le stesse che hanno prodotto, in grande parte, questo abbattimento dei costi, in particolare si parlerà di fotolitografia. In questo caso specifico il cross-over tra la tecnologia di fotolitografia sviluppata per i microprocessori, sono state poi esportate nell’ingegneria dei materiali di superficie, uno dei più grandi contributi nell’abbattimento dei costi. Dal 2001 a oggi si è passati da un costo di sequenziamento di 100 milioni a 100 dollari, a seconda del tipo di sequenziamento. Qual è il motivo di ciò?
Nell sequenziamento by synthesis, si legge la sequenza di DNA di interesse sintetizzando il filamento complementare, di queste tecnologie, l’illumina è la più famosa, ma ne esistono diverse, Il principio fondamentale è che la polimerasi incorpora un nuovo nucleotide per creare il secondo strand, e questo genera un segnale, che è misurabile con lo strumento che si sta utilizzando. Ci sono diversi tipi di tecniche con diversi segnali, come la fluorescenza, ma non solo. Attraverso questo processo, il problema è che con un singolo filamento e un singolo nucleotide inserito, il segnale è talmente debole da non essere visto. Per risolvere ciò in diverse tecnologie di sequenziamento si va ad amplificare il DNA in maniera clonale. Il segnale può essere diverso, possiamo avere chemiluminescenza, il pH nella tecnologia Ion Torrent, l’incorporazione del nucleotide genera un cambiamento di pH, o un segnale di corrente. Tutte queste tecnologie che utilizzano l’amplificazione clonale, quando si parlerà di long reads, non c’è amplificazione clonale, quindi si vede il segnale di una singola molecola inserita. Nella tecnologia Illumina, Ion Torrent, si ha un segnale diverso a seconda della tecnica, che dev’essere amplificato, utilizzando un sistema di amplificazione clonale, cioè tutte le copie uguali a quella di partenza, in questo modo durante il sequenziamento si ottiene un segnale omogeneo più forte. Come si mette il DNA in un sequenziatore? Se si estrae un DNA da una cellula, questo è troppo grande per sequenziamento short reads, (illumina 300pb) va quindi inserito in un sistema che ci permetta di leggere dei frammenti. Una delle cose fondamentali della biologia molecolare, è l’inserimento di sequenze “ handles ” note all’estremità del DNA, queste permettono di manipolare il DNA. Se la sequenza è ignota, non si può fare la PCR, e quindi non si può amplificare, serve quindi l’inserimento di sequenze note.
Nel caso di Illumina queste sequenze note si chiamano P5 e P7, che si trovano all’estremità della molecola di DNA che permettono il funzionamento del sequenziatore. Solo le molecole che hanno le estremità corrette sono visibili al sequenziatore, le altre non sono viste, per questo prendono il nome di “ sequencing legal ”. Questo processo avviene attraverso una reazione chiamata tagmentazione , che comprende tagging e frammentazione del DNA in input in una reazione singola, molto importante come reazione, viene utilizzata anche per visualizzare la cromatina accessibile in epigenetica. La frammentazione è indispensabile perché il sequenziatore Illumina legge solo molecole di 300 nucleotidi. Questa reazione, si basa sull’attività delle trasposasi, che hanno avuto un ruolo fondamentale nell’evoluzione dei genomi, ma sono anche stati utilizzati perché permettono di fare operazioni di biologia molecolare, in particolare c’è questa proteina Tn5 della trasposasi, che ha la proprietà di essere caricata con sequenze note, inserito nel DNA genomico, questa lo frammenta con quei due segmenti alle estremità. Ovviamente la lunghezza del frammento dipende da tante caratteristiche, tra cui quantità delle due componenti, tempi di reazione… che sono stati messi appunto per generare pezzi di DNA con 300pb e le giuste estremità. Questo tipo di reazione si chiama Nextera XT Library Prep nella letteratura di Illumina (nome commerciale). Le tecnologie di sequenziamento differenziano per la lunghezza delle reads che producono: la lunghezza del DNA di partenza varia a seconda da dove si estrae:
Abbiamo una flow cell , come superficie, dove c’è un lawn di primer P5/P7, i cui complementi sulle molecole di DNA, che quindi vanno a legarsi, in modo che ci siano molte molecole di DNA sulla superficie. Poi avviene un bridge amplification che tramite cicli, produrrà copie in ciascun punto, formando molecole di DNA identiche. A partire da una molecola di DNA singola si ottengono dalle 1.000 alle 10.000 copie di DNA per cluster, perché sono gruppi di molecole di DNA identiche. Questo cluster permette di generare un segnale forte abbastanza per essere rilevato. In questa bridge amplification, le molecole di DNA formano un “ponte” tramite i complementi di P5 e P7 presenti all’estremità della molecola di DNA, andando ad ibridizzarsi al complementare sulla superficie, si va poi a sintetizzare il secondo filamento, si denatura, la copia a sua volta si ri-ibrida con un primer sulla superficie, e può avvenire nuovamente una reazione di polimerizzazione. Ci sono svariati motivi per cui la lunghezza di una reads è limitata a 300pb, uno dei motivi è che questo bridge non si può formare se la molecola è troppo lunga. Genomic DNA fragmentazione Add adaptors blind to flow cell bridge PCR cluster formation sequencing. Questi cluster di molecole amplificate localmente vengono anche chiamate “ polonies ”. Per far sì che possa essere inserito un nucleotide alla volta, è l’utilizzo di reversible dye terminator , nucleotidi sintetici che contengono un gruppo di blocking e un fluoroforo , si chiamano terminatori reversibili, perché entrambe queste cose devono essere rimosse, per leggere il segnale dei successivi nucleotidi. Anche il 3’ blocking group dev’essere reversibile, in modo che la polimerasi possa continuare. In questo modo si può incorporare solo un nucleotide per volta, e la rimozione di questo gruppo è fondamentale per far continuare la sintesi. C’è un composto, il TCEP, che taglia entrambi questi legami chimici. Ci sono due tipi chimica in questi sequenziatori Illumina:
Questo sequenziamento è basato su DNA nanoball , si utilizza un altro metodo di amplificazione isotermica, che si chiama Rolling Circle Amplification , basata sulla polimerasi del fago P29. In questo tipo di sequenziamento si fa un inserto circolare con un primer noto, quando si ibridizza un primer, la polimerasi fa una copia del circolo, una volta fatto il giro questa polimerasi non si ferma, in quanto ha un attività strand displacement , fino ad ottenere una molecola di DNA lunghissima che contiene copie lineari dello stesso ciclo, che prende il nome di nanoball DNA.
Le singole nanoballs di DNA vengono quindi depositate su una flow-cell modellata con caratteristiche chimiche che legano il DNA. La tecnologia originale utilizzava il sequenziamento by ligation , dove il sequenziamento avviene per legame di oligo uno accanto all’altro per ricostruire il segmento, ma ora si è passati all' Sequencing by sintesys con terminatori coloranti reversibili (tecnica che utilizza Illumina). CLONAL DNA AMPLIFICATION BY EMULSION PCR Questa tecnica si basa sulla formazione di microscopiche goccioline d'acqua all'interno di un olio. Ciascuna gocciolina agisce come una camera di reazione microscopica contenente: un filamento di DNA, una biglia con primer attaccati e un mix per PCR. Questa è una tecnica generica utilizzata in più flussi di lavoro. Ogni biglia presenta una sola molecola di DNA, questo dipende dalla concentrazione relativa del DNA, se sufficientemente bassa, il numero di molecole di ciascun compartimento è governato dalla legge di Poisson, quindi se la densità è molto bassa, moltissime goccioline ne avranno zero, il resto una sola molecola, difficilmente di più. Questa biglia può essere sequenziata tramite la tecnologia Ion Torrent.
Nella tecnologia di sequenziamento Ion Torrent, si sfrutta il rilascio di un atomo di idrogeno quando si ha l’incorporazione di una base, questo determina una variazione di pH. Andando a misurare questa variazione, che viene trasformata in un segnale elettrico, che viene misurato, e tramite questo possiamo determinare se la base è stata incorporata o meno. In questo caso non c’è un terminatore, ad ogni ciclo possono essere incorporate anche più basi se la regione è omopolimerica, a seconda dell’intensità posso determinare quante basi sono state introdotte. Tuttavia, questo segnale non è lineare, motivo per cui una delle limitazioni principali di questa tecnologia è un alto tasso di errore nelle regioni omopolimeriche. (figura a lato) Come si trasforma il pH in un segnale elettrico? L’idea è che ci sono dei transistor particolari chiamati Ion-Sensitive Field Effect Transitor (ISFET), un circuito integrato che converte la differenza di pH in segnale elettrico. Questo può essere implementato in un circuito integrato con la tecnologia CMOS ( Complementary Metal-Oxide Semiconductor ), stessa tecnologia usata dalle macchine fotografiche, che trasforma un segnale luminoso in un segnale elettrico. Per cui questi chip hanno tanti nano pozzetti in ognuno dei quali è presente una biglia che ha con se tante molecole di DNA identiche legate, e ciascun nano pozzetto avviene questa reazione che viene misurata dal transistor sulla base del pozzetto.
Quando si fa una reazione di sequenziamento genomico, ci sono due modalità fondamentali con cui si possono guardare i dati:
Il chip di sequenziamento (Pacific Biosystems Single Molecule Real Time SMRT) contiene milioni di minuscoli pozzetti chiamati Zero-Mode Waveguides (ZMW) , disegnati in maniera tale da costringere la luce a seguire un certo percorso all’interno del chip. Una singola molecola di DNA polimerasi è immobilizzata sul fondo di ciascun pozzetto. I pozzetti hanno un diametro di circa 70nm e una profondità di 100nm. (fotolitografia) Il pozzetto è fatto in modo che la luce penetri solo nei primi 20-30 nm del pozzetto. Questo permette di fare imaging di un volume di 20 zeptolitri, in questo volume è possibile osservare l’attività di una singola polimerasi che include un singolo nucleotide fluorescente, l'intensità a diversa lunghezza d'onda di fluorescenza nel tempo ci fornisce la sequenza del modello. Uno dei problemi fondamentali di questa tecnologia è stata l’accuratezza, siccome il sistema è più complicato e la luce è più debole, uno dei sistemi che si sono inventati per risolvere tale problema è di fare un templato circolare per cui la polimerasi lo sequenza più volte, in modo da poter allineare le read e confrontarle per aumentare l’accuratezza. Questa tecnologia è in grado di generare con un elevata accuratezza reads di 10-25 kb. Inoltre, possono essere lette in maniera diretta alcune modificazioni epigenetiche. NANOPORE SEQUENCING Questa tecnica non rientra più nelle tecniche di sequencing by sinthesys, qui c’è una lettura diretta della sequenza del DNA senza sintesi del secondo filamento. Modulazione specifica della sequenza della corrente ionica attraverso il poro. Quando il DNA passa nel canale, cambia la differenza di potenziale tra le due parti del canale, in maniera sequenza specifica alle basi. Questi nanopori hanno una proteina motrice che si lega al DNA e spinge il DNA attraverso il nanoporo. Il problema di questa tecnologia è che l’error rate è molto più alto 6-15%, perché fare base calling è molto più complicato. Ci sono anche sequenziatori a basso costo, fra cui alcuni sono molto piccoli, però il base calling è più complicato. Oxford Nanopore Technologies:
Sono state identificate molte nuove variazioni strutturali associate alla malattia, comprese variazioni dovute all'inserimento di retrotrasposoni e all'espansione delle ripetizioni. Approfondimenti sulla diversità genetica e sull’evoluzione umana Il sequenziamento a lunga lettura di un modesto pannello di diversità di 15 genomi umani ha identificato quasi 100. varianti strutturali, la maggior parte dei quali erano precedentemente sconosciuti. Tra queste, le ripetizioni in tandem a numero variabile hanno dimostrato di essere quelle distribuite in modo meno casuale, con quasi la metà mappata agli ultimi 5 Mb di regioni subtelomeriche, probabilmente a causa dell'aumento dei tassi di rotture del doppio filamento in queste regioni. Il confronto dei genomi dei primati umani e non umani sequenziati con la tecnologia PacBio ha raddoppiato il numero di varianti strutturali associate alle differenze di espressione cerebrale specifiche del lignaggio umano e ha identificato cambiamenti su larga scala potenzialmente importanti nell'evoluzione delle scimmie antropomorfe. Uno degli obiettivi principali da raggiungere è la generazione di genomi diploidi di alta qualità, completamente in fase, in cui sono rappresentati entrambi gli aplotipi. Questa procedura converte un genoma umano collassato da 3 Gb in un genoma da 6 Gb che rappresenta sia il complemento materno che quello paterno. il sequenziamento diretto di modelli di DNA con le tecnologie PacBio e Nanopore sta espandendo il campo dell'epigenetica consentendo il rilevamento di modifiche precedentemente non riconosciute sull'RNA e sull'RNA in concomitanza con il sequenziamento.
Perché è importante un analisi single-cell? Se prendiamo ad esempio le cellule di una persona con un tumore, avremo un misto di tante cellule diverse, tumorali, sane, della vascolatura, linfociti… è un misto di tante cellule diverse. Quando si processa con RNA o DNA sequencing, si ottiene l’espressione media di tutte le cellule del campione. Se invece abbiamo la possibilità di sequenziare materiale genico di cellule diverse, avremo l’espressione delle singole cellule, con un risultato molto più informativo.
Queste tecnologie possono essere classificate in tre categorie:
Un alternativa è rimpiazzare la luce con misure che sono più separate e che non hanno questo problema, si può usare la spettrometria di massa e si possono usare isotopi stabili di metalli rari, si hanno sempre picchi di misura ma più separati l’uno dall’altro. Questi isotopi sono misurati con la spettrometria di massa. Ripasso: Il numero di protoni in un nucleo atomico prende il nome di numero atomico ed è “l’identità” di un elemento. Il numero di massa è invece la somma di protoni e neutroni che sono in quell’atomo, possiamo diversi atomi con stesso numero atomico ma diverso numero di neutroni e si chiamano isotopi. Possono essere stabili o radioattivi, cioè, decadono in altri isotopi. Quelli stabili sono variazioni dello stesso elemento con numero di massa diverso. Per ciascun ione di metallo nel campione posso misurare la sua massa atomica e sapere quanti ioni di un isotopo e quanto di un altro ci sono in ciascuna cellula. CyTOF – Cytometry by Time of flight Il numero di massa di un atomo può essere misurato dal Time of Flight mass spectrometry , si usa un campo elettrico per accelerare degli ioni attraverso lo stesso potenziale elettrico. Un impulso elettrico definisce l'inizio della misurazione e fornisce l'accelerazione iniziale allo ione, viaggiono nello spazio e il tempo che impiegano ad arrivare alla fine è un indicazione del loro peso. Quindi se tutti gli ioni hanno la stessa carica, la loro velocità (e quindi il tempo di arrivo), dipende dalla loro massa. Questa misura è molto più precisa delle misure che si possono fare con la luce. Ciascun anticorpo è taggato con un isotopo specifico di un metallo raro, tutte queste cellule sono messe poi in un sistema Inductively Coupled Plasma Mass spectrometry , al cui interno è presente il plasma, un gas che attraverso un campo magnetico viene riscaldato ad altissime temperature (circa 6000K) quando le cellule vanno in questo gas, si atomizzano, e questi atomi vengono ionizzati, che vengono poi fatte passare in uno spettrometro Time of Flight, per cui misuriamo l’abbondanza dei vari isotopi. Gli ioni leggeri ed eccessivamente abbondanti vengono filtrati da un quadrupolo. Questo sistema si chiama CyTOF – Cytometry by Time of flight. Per taggare gli anticorpi con metalli rari, si sfrutta un chelante che ha una struttura tale da intrappolare l’atomo di metallo pesante in mezzo, si utilizza perché lo stesso chelante va bene per tutti i metalli rari. Su un anticorpo sono presenti polimeri di chelanti. Uno dei vantaggi di questo sistema:
Prima di fare l’esperimento si mischiano questi campioni dopodiché si aggiunge l’anticorpo in una volta sola, ciò consente inoltre di risparmiare sul consumo di reagenti. Poi una volta acquisiti i dati, si possono separare le cellule in base al campione da cui venivano, in base all'intensità del reagente del barcoding. Gating : processo con cui individuo popolazioni di cellule di interesse nel campione. È un processo di selezione dei punti che cadono in una certa regione (gate) del grafico. Questo è un processo di selezione gerarchico. Le popolazioni sono definite dall’applicazione di filtri successivi. Questo processo diventa esponenzialmente più complicato all’aumentare del numero di marcatori rilevati. Qualche software per analizzare questo tipo di dati: FlowJo, Cytobank, CellEngine, FCD Expresse, (per aprire dati in R: R-flowCore package).
Fluorescence activated cell sorting (FACS) La Fluorescence activated cell sorting serve a separare le cellule. In questo Le vibrazioni ad alta velocità sull'ugello rompono il flusso in goccioline contenenti singole cellule, qualcuna sarà vuota qualcuna no. Le cellule passano attraverso il laser e sulla base della fluorescenza, queste goccioline vengono caricate elettricamente in base alle porte di analisi definite dall'operatore. Le goccioline vengono deviate nei tubi di raccolta utilizzando le piastre di deflessione caricate elettricamente. Questa tecnica si può usare solo con tecnologie basate sulla fluorescenza. Imaging cytometry La citometria può anche essere equipaggiata con una camera per fare un imaging delle cellule. Ad esempio, se abbiamo un fattore di trascrizione, che quando attivo trasloca il nucleo, se misuriamo solo la fluorescenza del fattore, questa non cambia, con questo strumento possiamo distinguere se la proteina è nel citoplasma o nel nucleo. Ora è possibile anche il sorting basato su immagini.
Questo tipo di tecnologie non dà informazioni solo sul fenotipo delle cellule (es. che proteine o geni esprimono) ma anche informazioni spaziali, di dove le cellule sono nel tessuto. Inoltre, con questo tipo di tecniche è possibile rilevare, anche contemporaneamente, sia le proteine (tramite anticorpi) che l'RNA. Il goal principale dello sviluppo tecnologico in questa area è quello di aumentare il numero di cose simultanee che si possono misurare (plexity). TRADITIONAL IMMUNOHISTOCHEMISTRY Nell’immunoistochimica tradizionale si va a estrarre un pezzo di tessuto, che viene fissato con formalina, viene poi messo in un blocco di paraffina, in modo da mantenere il tessuto. Per l’analisi si utilizza il microtopo, che taglia una fetta sottilissima del tessuto, si mette su un vetrino, si fa uno screening, con un colorante per ciò che si vuole andare a guardare. Un particolare tipo di screening per una proteina, si utilizza un anticorpo primario che si lega alla proteina di interesse, dopodiché si aggiunge un anticorpo secondario che si lega all’anticorpo primario, e ha un enzima (perossidasi o fosfatasi alcalina) coniugato, aggiungendo il substrato l’enzima lo trasforma dando un segnale. flussi di lavoro simili possono essere eseguiti con anticorpi fluorescenti. Come si aumenta il numero di target? Cambia il metodo di rilevazione. Dobbiamo affrontare i limiti della luce come piattaforma di misurazione, perché, se utilizziamo anticorpi fluorescenti si possono mettere più anticorpi fluorescenti, dove ognuno ha un colore diverso. Tuttavia, per la fluorescenza rimane il problema della sovrapposizione di spettri. Ci sono differenti strategie, alcune già viste in citometria:
Questo CODEX è commercializzato da PhenoCycler by Akoya Biosciences. Lo strumento è essenzialmente una combinazione di un microscopio convenzionale con un sistema di fluidica automatizzato. Rispetto a OPAL in questo metodo lo screening è fatto tutto insieme, ma l’imaging è fatto in cicli, in opal è il contrario invece, questa soluzione in codex è migliore perché con questi cicli di stripping e annealing degli anticorpi il tessuto si rovina per cui in questo modo, tutti gli anticorpi hanno la stessa change di legarsi.
Uno degli svantaggi delle tecnologie basate su anticorpi è che innanzitutto bisogna avere l’anticorpo per il target di interesse, che funzioni bene nel saggio che si sta facendo, quindi gli anticorpi hanno limitazioni, inoltre, costano. Quando si deve riconoscere una sequenza nucleotidica, la cosa è più semplice, si sa la sequenza che si vuole riconoscere si ordina un oligo complementare, che cosa meno di un anticorpo, e questo funge da sonda andando a ibridizzare il target. Nella FISH o Fluorescence in situ hybridization si utilizza una sonda fluorescente di DNA utilizzata per ibridizzarsi a una regione genomica di interesse. Questa tecnologia è molto usata nella diagnostica, ad esempio per visualizzare anomalie nei cariotipi, e per vedere variazioni nel numero di copy number di geni (oncogeni), nel cancro molto spesso ci sono riarrangiamenti genomici che fanno sì che ci siano diverse copie di geni oncogeni che vengono amplificati (es. EGFR, epitelian grow factor). Per vedere più geni alla volta una limitazione è la fluorescenza, in questo caso tutti i sistemi che esistono utilizzano come trucco quello di separare la fluorescenza nel tempo. Abbiamo il linear decoding (misura l’RNA), si può disegnare un sistema che permetta di fare una serie di cicli di imaging e ciascun gene compare con un colore diverso nei vari cicli, in modo da avere un pattern unico per ciascun gene. Il vantaggio è che ciascun ciclo si ha un numero ridotto di canali di fluorescenza. Il sistema è disegnato in maniera tale che si hanno una serie di sequenze sintetiche che permettono di far sì che la sonda per il gene A diventi blu nel primo ciclo, verde nel secondo e così via.. L’efficienza è intorno al 20/25%, inoltre due sonde per due geni diversi potrebbero avere efficienza diversa, magari una sonda è più efficiente dell’altra, oppure l’RNA target è complessato con proteine, per cui è difficile per la sonda accedervi. Non è quindi possibile quantificare in assoluto la differenza tra due geni, è più una differenza relativa. È una procedura molto simile al sequenziamento, anche lì si avevano fluorescenze diverse ad ogni ciclo, ma nel caso del sequenziamento la fluorescenza corrisponde ad una singola base, qui invece si utilizzano barcodes, quindi non sono singole basi, ma sequenze sintetiche. Per la rilevazione del RNA, una singola sonda non basta a generare un segnale di fluorescenza abbastanza forte perché, se si ha un oligo che si ibridizza alla molecola bersaglio, con un solo fluoroforo, questo non genera un intensità abbastanza forte per la rilevazione. Le principali differenze tra le tecnologie in-situ che utilizzano una variazione del principio del linear decoding (seguono negli appunti), sta nel come viene fatta l’amplificazione del segnale e nei dettagli di come son costruite queste sequenze sintetiche. CosMx – Nanostring technologies La CosMx utilizza come metodo per l’amplificazione del segnale la branched DNA aplification, sfrutta una sonda che lega l’RNA di interesse e per amplificare questo segnale, si utilizza un’altra molecola di DNA che ibridizza sulla sonda e su questa molecola di DNA ci sono tanti siti di ibridazione per altre molecole di DNA, che a loro volta hanno siti di ibridazione per un oligo fluorescente. Quindi l’amplificazione del segnale avviene tramite una struttura di DNA ramificato. Questi branched presentano nucleotidi che sono sensibili agli UV, quindi tramite trattamento con UV vengono rimossi, rimuovendo il segnale. Xenium – 10X Genomics In Xenium l’amplificazione del segnale avviene con sonde padlock e con rolling circle amplification. In particolare, queste padlock probes sono delle sonde che si ibridizzano in maniera circolare sul target di interesse, poi si può aggiungere una ligasi che lega e fa un cerchio di DNA chiuso, si può usare un enzima, pi29polimase, che fa questa rolling circle amplification, si mette un primer per una sequenza presente sul circle e l’enzima, in questo modo si forma una DNA nanoball in corrispondenza di dove si è legata la sonda, in questo modo otteniamo molte copie della sequenza di rilevamento. Uno dei vantaggi di queste probes è che sono molto specifiche, la ligasi liga solo dove c’è una perfetta complementarità. Il decoding di questo meccanismo non è del tutto chiaro, ci sono comunque due possibilità:
Viene utilizzato un sistema con una sonda bridge con dei fluorofori che si legano a questo bridge, e queste sono diversi ad ogni ciclo, in modo da arrivare ad una situazione in cui ogni gene ha un pattern di fluorescenze specifiche. Dopo questa amplificazione, non abbiamo un solo fluoroforo che si lega, ma molti di più. Un’altra tecnologia sfrutta la Sequencing by ligation , ligando coppie di nucleotidi affidandosi alla specificità della ligasi. MERFISH - Vizgen Nella MERFISH l’amplificazione del segnale si basa sull’utilizzo invece che di una sola sonda o un numero limitato, per il gene di interesse, si hanno molte sonde per ciascun gene. Quindi l’amplificazione viene eseguita utilizzando un gran numero di sonde per ciascuna specie di RNA bersaglio. Ogni sonda ha due diverse sequenze readout per la rilevazione da parte degli oligo fluorescenti.
Tutte le tecniche appena viste utilizzano le sonde, scegliendo a priori le sequenze che voglio individuare, in questa tecnica, si utilizzano vetrini per microscopia spottati con oligo, ciascuno con un barcodes spaziale univoco. L'RNA del tessuto viene catturato sullo spot e retrotrascritto. I barcodes forniscono informazioni spaziali seguendo una sequenza standard short read. Commercializzato come Visium da 10X genomics. Il problema di questa tecnologia è che non è una vera e propria tecnologia single cell, in quanto: Gli spot non sono allineati alle cellule. Più cellule possono può corrispondere ad un unico spot. Diffusione dell’RNA dalle cellule vicine.
Tutti questi approcci sono basati sulla creazione di librerie di sequenziamento aventi un barcodes che identifica la cellula di origine. Per raggiungere questo obiettivo è necessario separare fisicamente il contenuto di acidi nucleici di ciascuna cellula. Il modo in cui le celle sono fisicamente separate e codificate con codici a barre rappresenta il principale elemento di differenziazione tra le tecnologie. La biologia molecolare della preparazione delle librerie è relativamente simile. Con il passare del tempo e il progresso tecnologico è aumentato il numero di cellule che è possibile sequenziare in un esperimento. Con le ultime tecnologie si riesce ad arrivare a centinaia di migliaia, anche milioni di cellule. È importante avere sequenze note all’estremità della sequenza, qui troviamo reazioni di template switching , questa reazione è usata per aggiungere sequenze note alla fine di una reazione di retro-trascrizione (da RNA a cDNA). Questa reazione è particolarmente utilizzata per la preparazione di librerie di RNA. Si basa sul non-template addition by reverse transcriptase MMLV, un virus, questa trascrittasi quando arriva alla fine del templato di RNA aggiunge una serie di residui, in genere di C. Dopodiché si può aggiungere nella reazione un altro oligo, che si chiama template switch oligo, che parte con una serie di G, quindi si appaia e la polimerasi cambia templato, non utilizza più l’RNA, ma questo oligo, per cui continua.
Tra i sistemi più semplici per isolare le cellule, abbiamo FACS viene utilizzato per smistare le singole cellule nei pozzetti di una piastra per microtitolazione, in ciascun pozzetto si effettua una reazione di library prep, sintesi cDNA, PCR e così si ottengono le librerie che poi possono essere mischiate e messe sul sequenziatore. Questo sistema è limitato a qualche centinaio di cellule, infatti, questo metodo non viene più utilizzato. Nonostante ciò, i protocolli di preparazione delle librerie sono molto efficienti e possono profilare singole cellule con elevata sensibilità. La soft litografia viene chiamata così in quanto sono stampati materiali morbidi. La fotolitografia è lo stesso approccio che è utilizzato per fabbricare circuiti integrati come microprocessori. Si ha una superficie che è ricoperta con un materiale fotosensibile chiamato fotoresistente. L'esposizione alla luce modifica le proprietà chimiche del materiale resistente rendendolo sensibile o resistente alla degradazione chimica. La luce viene modellata secondo la forma della struttura desiderata. L'applicazione di un solvente determina lo sviluppo di una superficie incisa. La superficie incisa può essere ricoperta con un altro polimero (ad esempio polidimetilsilossano, PDMS) per formare un materiale morbido "stampato" con la struttura desiderata. Questo materiale PDMS può essere utilizzato per costruire delle valvole. In particolare, un ulteriore strato di materiale morbido può essere utilizzato per creare valvole pneumatiche. L'attivazione della valvola tramite la pressione dell'aria espande il canale della valvola e restringe il canale del fluido, bloccando il flusso dei reagenti.
processo di risoluzione dei duplicati si chiama collapsing , tutte le read che hanno lo stesso UMI vengono collassate in un'unica read, perché corrispondevano a un'unica molecola di partenza.
Le cellule vengono depositate, con bassa densità, in modo da avere una cellula o nessuna, in micropozzetti individuali, caricati con biglie di cattura dell'acido nucleico barcode. Può catturare fino a 320.000 celle per cartuccia. Si può anche fare l’imaging dei pozzetti, ad esempio per il controllo di qualità. Il principio è sempre lo stesso, in questo caso invece di essere isolate in un emulsione di olio e acqua, vengono isolate su una superficie con pozzetti. Principles of split-pool synthesis Il principles of split-pool synthesis è un sistema che serve a generare un gran numero di molecole diverse con un numero ridotto di reazioni. Si basa sulla presenza di una biglia o un supporto fisico, in cui si inizia la reazione, poi si hanno una serie di pozzetti. Al primo ciclo si inserisce ciascuna biglia in un pozzetto e poi si inserisce un monomero diverso, al ciclo successivo si mettono le biglie tutte insieme e poi si ridistribuiscono nei pozzetti, al primo monomero che c’era prima ci si aggiunge il monomero che c’era in quel pozzetto. Ciascuna biglia adesso avrà due monomeri, continuando con questi cicli. Il prodotto finale sintetizzato dipende dall'ordine sequenziale in cui ciascuna sfera ha viaggiato attraverso i recipienti di reazione. Lo stesso principio può essere usato per barcodare delle cellule, il supporto in questo caso non è la biglia, ma la cellula, ciascuna contiene RNA, quindi la cellula è quella che muove l’RNA tra un pozzetto all’altro. Ci sono diverse varianti di questo approccio che differiscono nella biologia molecolare dell’aggiunta dei barcodes. Commercializzata da Scale e Parse. La necessità di mantenere cellule/nuclei intatti durante il processo pone ulteriori sfide, per esempio, non è possibile utilizzare tamponi di ibridazione aggressivi, limitando quindi l’accessibilità dei reagenti e quindi l’efficienza del metodo. Uno dei vantaggi è che è un sistema molto economico, non si ha bisogno di una nessuna strumentazione particolare. Questo sequenziamento si può fare sia in singola cellula che in singoli nuclei, in generale le sospensioni unicellulari possono essere preparate solo da tessuto fresco. Per fare questo tipo di sequenziamento, a partire da un tessuto di partenza, la prima cosa da fare è disgregarlo in cellule singole, per far ciò si utilizza sistemi enzimatici, meccanici… è un processo chimico e fisico che disassocia il tessuto, ciò è possibile solo con tessuto fresco, ciò rappresenta un’enorme sfida logistica negli studi clinici, perché i laboratori ospedalieri in genere non hanno le risorse per condurre questo tipo di esperimenti. Al contrario, la preparazione dei nuclei può essere ottenuta da un tessuto congelato. Lo svantaggio di utilizzare i nuclei è che la sensibilità si riduce ulteriormente, poiché nei nuclei c’è meno RNA, è più complicato dal punto di vista del sequenziamento, in quanto ci sono anche RNA non maturi.
È una tecnologia che serve ad utilizzare il single cell sequencing per misurare proteine, invece che per misurare RNA. La stessa strategia che abbiamo già visto per l'indicizzazione degli anticorpi con barcode oligo (CODEX) può essere applicata per la misurazione diretta degli anticorpi legati mediante sequenziamento. La sequenza di cattura può essere sostituita con qualcosa di diverso dal poli-A per non interferire con la cattura dell'mRNA. Il vantaggio di questa tecnologia è che, quando si va a sequenziare, si può contare quante volte è comparso il barcode e questo ci dice l’abbondanza della proteina. Si può anche fare contemporaneamente RNA-seq. SENSIBILITÀ La sensibilità è una sfida e un compromesso con la produttività. L'mRNAseq a cellula singola di N cellule non equivale ad avere N set di dati sfusi. Ma ciò che otteniamo con la maggior parte di queste tecnologie è un quadro relativamente superficiale del trascrittoma di ogni cellula. Quando si fa RNAseq di un tessuto, si può avere un deep sequencing e misurare diversi aspetti di quel tessuto, quando si fa quest’altro tipo di tecnica, dal momento che il materiale di partenza è molto più limitato, tutte queste tecnologie sono molto più complicate, ciò che si ottiene è una “fotografia” più superficiale di quella del trascrittoma di ogni cellula. Queste tecnologie, come quella next? Genomics nei droplets, quando son partiti la sensibilità era circa del 10%, adesso questo numero è più alto, intorno al 35%, ma comunque non del 100%, quindi i geni più abbondanti si misurano, quelli meno abbondanti no.
In genere, i metodi basati sulla cattura microfluidica o sull’isolamento delle singole cellule, hanno una sensibilità molto maggiore (anche se ora non le usa più nessuno). Tuttavia, sono anche limitati nella produttività (ovvero nel numero totale di cellule analizzate). Il confronto della sensibilità tra due metodi deve essere sempre effettuato in funzione della profondità (in termini di numero di reads per cellula) di sequenziamento per cellula. La profondità del sequenziamento è semplicemente una funzione di quanto vuoi spendere per il sequenziamento. Più cellule sono presenti nell'esperimento, più sarà necessario sequenziarle per ottenere lo stesso livello di sensibilità. La sensibilità effettiva dipende in ultima analisi dalla complessità della libreria di input, ovvero da quante diverse molecole di mRNA sono state originariamente catturate. Quindi, la vera sensibilità del metodo non è quanto ho sequenziato, ma quante molecole di mRNA originali il metodo ha catturato. i metodi più sensibili sono quelli basati sulla preparazione delle librerie nel chip microfluidica Fluidigm C1. Quindi gli UMI sono quelli che ci permettono di misurare la sensibilità del metodo e la complessità della library di partenza, perché quanto si sequenzia dipende dalle PCR che si fanno e quanti soldi spendere. Nella libreria ci sono un numero finito di UMI, perché il numero di UMI che sono nel campione dipende da quanti UMI sono stati catturati nel processo di preparazione del campione. Questa misura che si chiama sequencing saturation che è uguale a: 1 - il numero di read uniche(UMI)/ numero totale di reads. All’aumentare del numero di reads per cellula, la sequencing saturation aumenta fino ad arrivare ad un certo plateau, questa è una misura di quanto, se si sequenzia di più si ottiene più UMI. Questa è una misura molto importante della complessità di una biblioteca. Più sequenziamo, più iniziamo a vedere le stesse UMI. Questa misura fornisce un'indicazione di quante più molecole (cioè UMI distinte) identificheremmo se continuassimo a sequenziare, misura che non raggiungerà mai 1. a causa della sensibilità limitata, la matrice (ovvero l’output che è una matrice in cui ogni riga corrisponde ad una cellula e ogni colonna ad un gene) di espressione cellula per gene contiene molti zeri (quadrati bianchi, vuol dire che i dati sono “sparsi”). La mancata rilevazione del gene per ragioni tecniche (cioè non biologiche) è chiamata "dropout". Questa è una differenza fondamentale con la citometria dove "assenza di prove" solitamente significa "evidenza di assenza".
Il DNA eucariotico è impacchettato in una struttura estremamente complessa intorno agli istoni (complessi proteici con 8 proteine), questi sono compattati in fibre di nucleosomi, questi formano dei loop che si ripiegano a formare il cromosoma. La struttura della cromatina ha un ruolo fondamentale nel modulare l’espressione genica, ad esempio il fattore di trascrizione deve essere in grado di trovare la sua sequenza target, l’RNA polimerasi quando trascrive un gene ha bisogno di spacchettare il DNA per trascriverlo. Le modificazioni chimiche sia della cromatina, che delle proteine leganti il DNA, svolgono un ruolo cruciale nella modulazione della funzione della cromatina e quindi nella regolazione dell'espressione genica (es. ci sono delle modificazioni istoniche che fanno sì che la cromatina sia più rilassata e di conseguenza più accessibile, ma anche modificazioni con modulazione inversa). Il genoma accessibile comprende il 2-3% della sequenza totale di DNA, però contiene più del 90% delle regioni legate da fattori di trascrizione. La definizione classica di epigenetica sta cambiando, la definizione classica è “lo studio di fenotipi ereditabili che non comprendono alterazioni della sequenza di DNA”. In realtà la definizione rivista è “tutta l’informazione portata dal genoma che non è codificata dal DNA”. La differenza fondamentale sta nel discorso di ereditarietà, cioè alcune di queste informazioni potrebbero non essere ereditabile. Come si fa a capire quali regioni del genoma sono accessibili o no?
Il problema di questa tecnica è che il protocollo è dispendioso in termini di tempo e richiede molto materiale di input. A partire da questa è stata sviluppata in alternativa più semplice che si chiama cut&run. I nuclei sono immobilizzati su sfere magnetiche rivestite di lectina. Gli anticorpi per il fattore di trascrizione (o comunque la proteina) di interesse si diffondono nel nucleo insieme ad una proteina di fusione della Nuclease Micrococcale e della proteina A (una proteina che lega gli anticorpi). Questa proteina di fusione si va a legare all’anticorpo, la reazione di scissione, ad opera della MNase I, viene avviata mediante l'aggiunta di calcio, e taglia il DNA solo dove stava l’anticorpo. La proteina A dirige l'attività della nucleasi sui complessi TF/DNA legati agli anticorpi. La regione di DNA di interesse viene eluita e sequenziata.
Tutte le modificazioni del genoma misurate con tecniche epigenetica ci danno dei dati grezzi, questi dati possono essere integrati a più alto livello per definire diversi stati della cromatina. La cromatina può essere distinta in eterocromatina costitutiva, che sono quelle regioni sempre chiuse, l’eucromatina, che corrisponde a regioni aperte, le regioni poised, che hanno uno stato intermedio, mezze aperte e mezze chiuse, sono spesso geni legati allo sviluppo, al differenziamento cellulare, che devono essere in una situazione metastabile. Tutti i dati grezzi sono stati integrati per definire delle categorie di più alto livello, più semplici da interpretare (promotore attivo, debole, poised, enacher forte, poised…). Lo stato della cromatina dipende dall’aggregazione di tutte queste parti, e si sviluppa un modello computazionale che integra tutti questi dati, per classificare ciascuna regione. Nelle regioni che sono strong enancher il 96% delle regioni hanno monometilazione della lisina 4 dell’istone H3, fa vedere quindi le percentuali di ciascuna di quel tipo di cromatina che hanno quella determinata caratteristica. Il landscape della cromatina è molto dinamico tra tessuti e stati di sviluppo. Il dataset avrà tre assi: uno per il tipo di misurazione epigenetica che si fa, un asse è il tessuto in cui si fa e l’ultimo asse è il tempo di sviluppo. La cromatina nel nucleo ha anche una struttura tridimensionale nel nucleo, che ne influenza la funzione. Ci sono dei cromosomi, questi in interfase si ripiegano in due compartimenti, A e B, che consistono rispettivamente di regioni prevalentemente gene-attive e gene-inattive. Parti di compartimenti, provenienti dallo stesso cromosoma o da cromosomi diversi, possono unirsi e creare hub, che sono collegati da molteplici interazioni cromatiniche, condividendo così una funzione comune (ad esempio, la repressione genetica) e coalizzandosi attorno a diversi corpi nucleari. Le interazioni della cromatina sono arricchite all'interno di domini di 100kb-1Mb di lunghezza chiamati domini di associazione topologica (TAD ). Questi domini parzialmente isolati sono suddivisi in nanodomini di cromatina più piccoli (CND). L'estrusione del loop di cromatina è mediata da complessi di coesione, che interagiscono con il fattore legante CCCTC (CTCF) e delimitano i confini del TAD. I TAD possono facilitare la formazione di contatti promotori-potenziatori all'interno dei loro confini. L’organizzazione 3D della cromatina ha a che fare con la regolazione dell’espressione genica, a livello molto alto, interi segmenti di cromosomi possono essere più vicini alla lamina nucleare o al centro del nucleo e questo definisce se sono attivi o meno. Inoltre, grossi segmenti di cromosoma si possono trovare in regioni del nucleo particolarmente attive dal punto di vista trascrizionale. A livello dei domini cromosomici stessi, per prevenire interazioni tra enancher e promotori, che non devono esistere, i cromosomi sono divisi in loop cromosomici o in domini tali che le possano interagire solo all’interno del dominio e non tra domini diversi. Per studiare l’archittettura 3D della cromatina, ci sono un paio di modi:
Super-resolution microscopy: in un esperimento normale di microscopia, lo scattering e la diffrazione della luce limita la risoluzione laterale a circa 250nm. Ci sono tre modi per aumentare la risoluzione:
Tutte le tecnologie ci danno informazioni su tantissime proteine o geni… per cui tutti questi risultati devono essere organizzati in tabelle, features (ovvero cosa si è misurato) → e le osservazioni ↓. Per fare un esempio, facciamo finta che le osservazioni sono i campioni (righe) e i features l’espressione del gene (colonne). Partiamo da due task importanti: