Scarica Tecniche di biologia molecolare e più Sbobinature in PDF di Biologia Molecolare solo su Docsity! LEZIONE 17 TECNICHE DI PURIFICAZIONE DEGLI ACIDI NUCLEICI Molti esperimenti di biologia molecolare si basano sull’isolamento e la purificazione degli acidi nucleici, i protocolli possono essere numerosi ma consistono prevalentemente di tre fasi: 1. Rottura delle pareti e/o delle membrane cellulari La rottura delle strutture cellulari è il primo passo per l’estrazione degli acidi nucleici e prende il nome di lisi cellulare e la soluzione acquosa che si ottiene prende il nome di lisato cellulare. Le tecniche possono essere diverse per procarioti/vegetali e eucarioti e questo dipende principalmente dalla presenza di una membrana cellulare. - Procarioti. Sono dotato di membrana cellulare (doppio strato fosfolipidico) e parete cellulare (peptidoglicani, polimeri di zuccheri più amminoacidi). Per rompere la parete cellulare occorrono gli enzimi (lisoenzima ha questa funzione) mentre per rompere la membrana cellulare si usano detergenti ionici come l’SDS che solubilizza i lipidi e proteine grazie alla sua struttura. Sono poi usati agenti chelanti (EDTA, EGTA) che sequestrano i cationi e impediscono agli enzimi che degradano gli acidi nucleici della cellula di funzionare o agenti caotropici che denaturano le proteine. - Eucarioti. Per estrarre acidi nucleici dalle cellule animali si usano solitamente soluzioni ipo-osmolari (ipotoniche) o iper-osmolari (ipertoniche) spesso accompagnate da detergenti. Le cellule poste in una soluzione con una concentrazione salina superiore a quella del citoplasma (soluzione ipertonica) si disidratano, raggrinziscono e si rompono più facilmente. Invece, se la concentrazione salina della soluzione è inferiore (soluzione ipotonica), le cellule si gonfiano perché assorbono l’acqua dall’esterno, fino a rompersi. I detergenti facilitano la rottura della membrana lavorando insieme alla differenza di osmolarità tra l’interno della cellula e l’esterno di essa. A questo possono aggiungersi anche cicli di congelamento- scongelamento, rottura meccanica (con biglie di vetro, mortai o pestelli) e sonicazione. Dopo la rottura della membrana, il DNA deve essere solubilizzato ovvero messo in soluzione e liberato di tutte le proteine strutturali e non che lo impacchettano. 2. Estrazione con fenolo-cloroformio Dopo la procedura di rottura e solubilizzazione degli acidi nucleici, questi devono essere separati dalle altri componenti, come proteine e lipidi, e ciò avviene grazie all’estrazione con fenolo-cloroformo. Questa è la più usata e la soluzione ha un pH leggermente alcalino o neutro per il DNA e leggermente acido per l’RNA. Il fenolo-cloroformio non è solubile in acqua ma una volta aggiunto alla soluzione di lisi verrà miscelato con il lisato. A seguito della centrifugazione genererà poi tre fasi che per gradiente di densità, dall’alto verso il basso, sono: acquosa, organica e fenolica. In queste tre fasi, le molecole si disporranno per affinità, in particolare le proteine solubili rimarranno intrappolate nella fase fenolica, quelle insolubili nella fase organica mentre gli acidi nucleici andranno nella fase acquosa con minore densità. 3. Purificazione e precipitazione Gli acidi nucleici deproteinizzati possono essere purificati dalla fase acquosa e concentrati tramite precipitazioni in soluzioni alcoliche in presenza di sali. Più comunemente si usano sali e etanolo: dopo l’aggiunta di due o tre volumi di etanolo e 1/10 di volume di sodioacetato come sale, si mischia e si lascia agire il tutto a temperature basse (-20°C). - I cationi del sodio interagiscono con le cariche negative dei gruppi fosfato degli acidi nucleici del DNA, neutralizzando le cariche negative dell’acido nucleico e sottraendo interazioni con l’acqua. Le molecole di acqua vengono così allontanante (l’etanolo si disidrata) mentre le molecole di DNA e RNA tendono a aggregarsi. - Gli alcoli (come l’alcol etilico) sono solventi polari che sequestrano l’acqua dalle molecole di RNA e DNA, favorendo così la precipitazione degli acidi nucleici. Dopo la precipitazione, il DNA può essere precipitato tramite centrifugazione: precipita sul fondo della provetta dato che il DNA non è in fase acquosa e ha un proprio peso. Successivamente si lava con dell’etanolo meno concentrato rispetto a quello della precipitazione (che era etanolo assoluto, ora è etanolo al 60%) e lo si fa asciugare per risospenderlo in una soluzione acquosa al cui interno c’è un tampone poco concentrato. Questa è la soluzione di DNA genomico che poi può essere usata per altri esperimenti. Ci sono anche altri metodi alternativi come il gradiente di cloruro di cesio: questa sedimentazione permette di analizzare e frazionare macromolecole e complessi in base alla loro densità e non alla massa molecolare. Prende il nome di centrifugazione isopicnica perché il campione non sedimenta da cima a fondo ma si posiziona su uno strato o banda a seconda della sua densità (densità di galleggiamento). Il sale con il DNA viene fatto centrifugare e si crea un gradiente in cui il DNA si stratifica in base alla propria densità. Poi il DNA che si trova a un certo gradiente può essere prelevato e andare incontro alle fasi successive di purifica. Esistono anche dei kit commerciali che si sono affermati perché semplici da usare e garantiscono un’alta riproducibilità con una elevata qualità (ma insegnano a lavorare e capire di meno). Si basano sull’utilizzo di soluzioni di lisi cellulari seguite da impiego di: resine a scambio ioni con scambiatori anionici, matrici silicee, filtrazioni su gel e ultrafiltrazione. Tali matrici per proprietà biochimiche riescono a legare gli acidi nucleici ma non le altre componenti cellulari. Successivi lavaggi e buffer di eluizione consentiranno di staccare il materiale della membrana in purezza. Per procedure molto delicate, come la preparazione di librerie per NGS sequencing, vengono usate beads magnetiche di separazione. Molti kit commerciali sono composti da piccoli imbuti di plastica contenenti una matrice in grado di legare gli acidi nucleici. Questi imbuti vengono posti all’interno di una provetta e si versa sopra di essi la soluzione contenente il lisato cellulare, la quale attraversa la matrice e si raccoglie sul fondo della provetta. Durante il passaggio gli acidi nucleici si legano alla matrice e possono essere staccati da essa usando appropriate soluzioni. Spettrofotometria Una volta che l’acido nucleico viene purificato, si vuole sapere se il campione non è troppo diluito e se è di buona purezza, la concentrazione e per farlo si usa lo spettrofotometro: si basa sullo spettro di assorbimento che si ottiene misurando l’intensità della luce assorbita in funzione della lunghezza d’onda, rappresenta un elemento di identificazione e quantificazione di una molecola. I dati caratterizzanti sono le lunghezze d’onda a cui l’assorbimento presenta un massimo. Proteine e acidi nucleici assorbono invece principalmente le radiazioni UV: le proteine presentano un picco di assorbimento (assorbanza A) a una lunghezza d’onda di 220nm per la presenza del legame amminico e a 280 nm per la presenza di amminoacidi con anelli aromatici (come la fenilalanina, tirosina e triptofano). Gli acidi nucleici DNA e RNA hanno un picco di assorbanza a lunghezza d’onda di 260 nm per la presenza di anelli aromatici nelle basi azotate. La misura con uno spettrofotometro dell’assorbanza a questa lunghezza d’onda (A260) viene comunemente usata in laboratorio per determinare la concentrazione degli acidi nucleici in soluzione. Dai dati di letteratura scientifica si sa cha a un valore di A=1 corrispondono: 50 µg/mL di DNA a doppio filamento, 33 µg/mL di DNA a singolo filamento e 40 µg/mL di RNA. In genere, la lettura si considera attendibile se 0<A<1. Per valutare la qualità della purificazione, l’analisi viene effettuata a due lunghezze d’onda: 260 nm, a cui assorbono gli acidi nucleici, e 280 nm, a cui assorbono le proteine. Si considera una buona purificazione degli acidi nucleici quando la lettura a l è meno del doppio della lettura a l. à Fondamentalmente si ha una sorgente di luce, generalmente nell’UV/visibile, e la luce viene fatta filtrare da un monocromatore in grado di lasciar passare una singola lunghezza d’onda. Successivamente c’è la cuvetta con all’interno la soluzione con il DNA purificato e dalla cuvetta esce la luce trasmessa la cui intensità viene quantificata: è l’assorbanza. Grazie alla legge di Lambert e Beer (A=ec𝑙), per la formula inversa, si può trovare la concentrazione. Gli spettrofotometri leggono un’assorbanza compresa tra 0 e 2. TECNICHE DI BASE PER ISOLARE E MANIPOLARE I GENI – tecnologie del DNA ricombinante Gli sviluppi più importanti nell’identificazione dei geni e della loro funzione e dei meccanismi che ne controllano l’espressione si sono verificati negli ultimi 40-50 anni, con la messa a punto di tecnologie capaci di selezionare il genoma, identificare i geni, analizzarli e modificarli. L’insieme di tali tecnologie ha preso il nome di ingegneria genetica o tecnologie del DNA ricombinante. Questa parte permette di essere sicuri che il plasmide abbia ospitato al proprio interno l’inserto. Successivamente alla ligazione tra il vettore e l’inserto, il plasmide ricombinante viene trasformato nei batteri (solitamente E. Coli) tramite un processo che prende il nome di trasformazione batterica. Solitamente si ottiene mediante trasformazione chimica con: - Cloruro di calcio (CaCl2), i batteri sono in una soluzione ricca di CaCl2 e quindi sono insieme a questo DNA ricombinante. Vengono poi messi per circa 10 minuti nel ghiaccio e successivamente vengono presi e messi per 45 sec a 42°C in modo che subiscano uno shock termico. A seguito di questo, aumentano molto la trascrizione e questo fa in modo che l’apparato di trascrizione batterico trascriva anche quello che è contenuto all’interno del plasmide. Le cellule vengono poi lasciate crescere a 37°C e piastrati su un terreno solido addizionato con un antibiotico per la selezione (sono capsule Petri). à Se all’interno del plasmide c’è una resistenza, per esempio, all’ampicillina (cosa che normalmente non si ha) e questi batteri vengono messi a crescere nel terreno solido insieme all’antibiotico ampicillina: sulla piastra crescono solo i batteri che hanno questa resistenza a questo antibiotico ovvero solo quelli che hanno ricevuto il plasmide ricombinante. - Elettroporazione (trattamento con una breve e intensa scarica elettrica che provoca l’apertura di pori nella membrana e quindi l’ingresso del DNA). Possibili metodi di selezione Può succedere che i plasmidi ricircolarizzano e, quindi, per capire se le colonie sono ricircolarizzate vuote o hanno all’interno l’inserto di interesse si usano dei marcatori: l’introduzione dell’inserto nel plasmide rompe il marcatore. Per esempio, il plasmide pBR322 è il prototipo di molti plasmidi di clonaggio da esso derivati: contiene un’origine di replicazione funzionale in cellule di E. Coli e due geni di resistenza (AmpR e TetR) che consentono alle cellule batteriche che contengono il plasmide la crescita in presenza degli antibiotici ampicillina e tetraciclina. Per clonare frammenti i DNA all’interno del vettore pBR322 si può usare un sito di restrizione BamHI, presente all’interno del gene TetR che conferisce la resistenza all’antibiotico tetraciclina. BamHI è un ER che genera estremità sporgenti e può essere quindi ligato con un frammento di DNA tagliato con lo stesso enzima. Dalla ligazione possono generarsi due prodotti: self ligato (vettore che si rilega su sé stesso) e vettore con all’interno l’inserto. Se la tetraciclina viene interrotta dal nuovo frammento di DNA ricombinante, la mancata resistenza può essere utilizzata per selezionare le molecole ricombinanti, tramite la modalità replica plating. Si fa il replica plating delle colonie cresciute sull’ampicillina su una piastra con la tetracillina: crescono solo le colonie che non hanno l’inserto con la tetracillinaàda questo replica plating si trovano così i batteri che hanno il plasmide con l’inserto. Si possono interrompere anche cassette geniche che inducono tossicità alla crescita: questo favorisce la selezione delle sole colonie che presentano il frammento. Nel corso degli anni sono stati sviluppati vettori plasmidici sempre più sofisticati e che utilizzano, per esempio, sistemi di selezione alternativi. Per esempio, l’interruzione del gene Lac z che produce b- galattosidasi che da luogo a colonie blu su di un terreno contenente X gal. Il plasmide pUC contiene: l’origine di replicazione, il gene della resistenza alla ampicillina, il gene lacZ all’interno del quale si trova e il MCS. Il multi cloning sites (MCS) è un frammento di DNA sintetizzato in vitro che contiene all’interno di un frammento di DNA di ca 50 nucleotidi siti di retrizione unici, ovvero che sono presenti solo una volta all’interno del vettore e che sono utilizzati per clonare l’inserto. Nel caso di pUC, il MCS è interno al gene lacZ. LacZ codifica per il gene della b-galattosidasi. Le cellule batteriche che producono questo enzima danno luogo a delle colonie blu se cresciute in presenza di X-gal, substrato per questo enzima. L’inserto all’interno di questo gene interromperà la sequenza del gene impedendo la produzione dell’enzima. Una volta avvenuto il clonaggio di un inserto nel multi cloning site, i batteri vengono trasformati e piastrati su piastre Petri di LB agar contenente sia ampicillina che X-gal. Cresceranno per via della resistenza i soli batteri che hanno ottenuto il vettore, saranno blu le colonie “vuote” ovvero prive di inserto e bianche le colonie con l’inserto al proprio interno. Le colonie contenente l’inserto adeguatamente clonato possono essere quindi selezionate in base al loro colore. Altri esempi di vettori di clonaggio sono: i fagi (lineari, il principio è lo stesso), i cosmidi (capacità di contenere il DNA maggiore di quella dei plasmidi), i vettori di lievito (circolari, che possono essere interscambiabili e compatibili tra procarioti e eucarioti) e i vettori YAC (yeast artificial chromosome). Spesso possono anche essere usati vettori virali, soprattutto nel momento in cui si è interessati a passare il DNA ricombinante in cellule eucariotiche. Cenni di applicazione per il DNA ricombinante La presenza di un promotore e di segnali di terminazione possono essere sfruttati per esprimere il DNA ricombinate che può essere, per esempio, il cDNA di un gene. Questo vettore di espressione è costruito per i procarioti batteri e consente di esprimere geni codificanti per proteine. Una possibile applicazione è quella di esprimere geni per proteine di interesse, anche eterologhe, che verranno quindi tradotte dal macchinario di traduzione di E. Coli. Queste proteine possono essere quindi purificate e utilizzati per saggi biochimici. Per esempio, per la purificazione delle proteine è però necessario introdurre dei “tag” ovvero delle molecole che ne permettono l’identificazione e la purificazione tramite reagenti comunemente usati in laboratorio. In questo esempio viene aggiunto all’N-term, dopo la prima metiotina ATG, una coda di istidine (6) che essendo cariche possono essere riconosciute da una resina a scambio ionico e utilizzate per la purificazione delle proteine. Una volta che il costrutto viene trasformato, espresso, l’mRNA viene tradotto e la proteina prodotta può essere estratta e purificata su una resina con ioni Ni2+ che riconosce a alta affinità le istidine. His-tag si legherà sulla resina, lavaggi successivi aumenteranno la specificità e la proteina verrà quindi eluita e sottoposta a western blot per controllare la bontà dell’esperimento. Vettori per il trasferimento genetico in cellule animali – plasmidi episomali La replicazione autonoma tipica dei plasmidi non funziona in cellule di mammifero. Tuttavia, l’utilizzo di un’origine di replicazione virale come quella di SV40 (Simian Virus 40) consente al plasmide di essere replicato anche in cellule eucariotiche. I vettori che sono in grado di replicarsi, senza integrarsi, vengono definiti episomali. Questo vettore possiede: - oriC replicazione batterica e AmpR per poter essere trasformato e selezionato nei batteri che lo amplificheranno consentendo poi di purificarlo in grandi quantità. - SV40 ori: origine di replicazione che viene riconosciuta dall’apparato di replicazione dei mammiferi. - P CMV: promotore del virus che consente l’espressione dell’inserto nei mammiferi. - MCS: siti di restrizione utili per il clonaggio dell’inserto. - PA: sequenza di terminazione della trascrizione per aggiungere poli A+. - Neo: gene per la resistenza alla neomicina (G418) che consente la selezione in cellule di mammifero. Vettori per il trasferimento genetico in cellule animali – vettori retrovirali L’espressione stabile dei vettori episomali può essere raggiunta tramite selezione. L’integrazione dei vettori episomali nel DNA è un fenomeno raro. I vettori di origine retrovirale hanno il grande vantaggio di integrarsi stabilmente nel genoma e di consentire quindi che il DNA ricombinante sia presente a livello cellulare in maniera costante. I lentivirus sono una successiva modifiche dei retrovirus. LEZIONE 18 TECNICHE DI BASE PER GLI AICIDI NUCLEICI Elettroforesi L’elettroforesi permette di visualizzare gli acidi nucleici e distinguerli per dimensione. È un principio chimico e fisico che si basa sulla solubilizzazione degli acidi nucleici e alla separazione in base alla carica netta e alla dimensione delle molecole. Questo può avvenire in un certo tipo di ambiente, per cui ci sono degli appalti di elettroforesi costruiti nel quale viene caricato l’acido nucleico che corre in un mezzo tamponato e poi viene visualizzato. à È il fenomeno per cui particelle dotate di carica e immerse in un mezzo conduttore sono indotte a muoversi per effetto di un campo elettrico applicato al mezzo stesso. Molte molecole biologiche possiedono gruppi carichi o ionizzabili una volta solubilizzate in un opportuno mezzo e il movimento elettroforetico (definito “migrazione” o “corsa” elettroforetica) di queste particelle può essere indotto per applicazione di un campo elettrico uniforme. Questo sfrutta il fatto che la migrazione delle molecole in questo campo permette di separarle, e la velocità con cui si separano dipende dalla loro massa. Molecole più grandi corrono più lentamente e molecole più piccole corrono più velocemente. Lo scopo finale è quello di sfruttare una migrazione elettroforetica per separare (“risolvere”) le biomolecole presenti nel campione in singole frazioni, distinte per la carica (che dipende, in molti casi, dal pH del mezzo, come nel caso di amminoacidi e proteine) e per le proprietà strutturali (forma, dimensione, peso). Principio di migrazione elettroforetica: se una forza elettromotrice (f.e.m.) prodotta da un generatore di corrente viene applicata a due elettrodi (anodo + e catodo –) immersi in un mezzo fluido conduttore all’interno di un contenitore (definibile come cella elettroforetica), in esso verrà generato un campo elettrico. Quest’ultimo agirà su ogni specie chimica ionica immersa, applicando una forza (o potenziale elettrico) che la spinge verso l’elettrodo, o polo elettrico, di segno opposto, in modo proporzionale sia al valore del campo elettrico (E) sia alla carica dello ione stesso (q). Tuttavia, la presenza del mezzo produce anche una forza contraria a questo movimento (o resistenza frizionale) che dipende dalla natura del fluido in cui ha luogo il movimento (per esempio, costante dielettrica). Questa è omogenea, per cui trascurabile. I fattori che influenzano la migrazione di una corsa elettroforetica - Tipo di campo elettrico che viene applicato. Un incremento di d.d.p. permette di ridurre i tempi di esecuzione della corsa ma causa un aumento del calore prodotto. - Temperatura. Un campo elettrico genera calore, per cui scalda il campione e la temperatura deve essere tenuta sotto controllo perché agisce sulla denaturazione delle molecole. L’aumento della temperature potrebbe indurre fenomeni di evaporazione del tampone elettroforetico, con modifiche delle sue proprietà. Per esempio, un DNA a singola elica corre in modo diverso da un DNA a doppia elica, e un RNA linearizzato corre diversamente da un RNA con sovrastrutture. L’ambiente elettrodomestico è tenuto in una stanza con una temperatura abbastanza bassa che viene controllata e il mezzo di corsa viene tenuto al freddo per contrastare l’effetto di riscaldamento della corsa stessa dovuta al campo elettrico applicato. - Supporto. Potrebbe presentare effetti selettivi di adsorbimento, in grado di modificare le proprietà di migrazione di alcuni componenti. - Tampone. La corrente viene condotta principalmente dalla soluzione elettrolitica che in genere è rappresentata da un tampone (critico per determinare la carica netta, e quindi la forza elettrostatica della migrazione, e la solubilità del campione) che deve essere inerte verso le specie ioniche in modo tale da permettere la ionizzazione delle molecole e il fatto che prevalga la carica netta del campione (l’unica che deve guidare la corsa elettroforetica). - Specie molecolare. La velocità di migrazione di una molecola aumenta all’aumentare della sua carica netta che, a sua volta, dipende dal suo grado di dissociazione che dal pH del tampone elettroforetico. Inoltre, con l’aumento delle dimensioni molecolari aumentano le forze frizionali rispetto al messo circostante. Classificazione delle tecniche elettroforetiche Le tecniche elettroforetiche vengono classificate in base al tipo di mezzo in cui avviene la migrazione e alla specie ionica sottoposta a migrazione. Dagli anni ‘30 a oggi si sono evolute diverse tecnologie elettroforetiche: una di queste è l’elettroforesi a fronte mobile che però è durata pochissimo dato che ormai si utilizza quasi sempre una elettroforesi zonale su un supporto gelatinoso che si fa in laboratorio. Questa può essere di agarosio o poliaceilammide, denaturante o meno (per cui in presenza di SDS o meno, ma questo è più importante per le proteine e non per il DNA) e può essere anche bidimensionale. Si è vista per separare le forche replicativa. dove trovano complementarietà. Si aggiunge la subunità della DNA polimerasi e i nucleotidi e questa va a polimerizzare pezzi complementari al filamento al quale l’esanucleotide si è attacco. Se questi nucleotidi sono marcati, si produce un frammento visualizzabile. Si produce un mix di frammenti più lunghi complementari alla regione di interesse che, nel loro insieme, sono utilizzabili come sonda. 2. Marcatura per nick translation Si parte dal DNA templato X, che è il plasmide dal quale si vuole produrre la sonda marcata per il locus X. Si sfrutta la capacità della DNasi 1, aggiunta al DNA, di creare dei nick, di avere attività esonucleasica e poi di rifillare con la DNA polimerasi I con nucleotidi marcati. Infatti, i nick a singolo filamento vengono riconosciuti dalla DNA polimerasi 1 (aggiunta anche questa) che digerisce parte del filamento e lo ricostruisce, basandosi sulla complementarietà, a partire da un OH libero in 31. Ovviamente, se si aggiungono alla soluzione dei nucleotidi marcati, si genererà una sonda marcata. 3. Marcatura al 51 Si usa quando la sonda non è un segmento ma un oligonucleotide di 20 paia basi. Se si usa una sequenza con 31-51 lineare (non plasmide), al 51 può essere aggiunto, tramite l’enzima polinucleotide chinasi, un tag radioattivo. In questo caso si usa una molecola di ATP e si aggiunge fosforo radioattivo marcato al 51. à Si sceglie una metodica piuttosto che un’altra anche in base a quanto è visibile la marcatura. L’ibridazione con sonde specifiche permette l’analisi di molecole separate mediante elettroforesi su gel. Può trattarsi di frammenti di DNA ottenuti con enzimi di restrizione (Southern blot) o di uno specifico mRNA all’interno di una preparazione di mRNA totale (Northern blot). Il Southern blot è una tecnica che si basa su una prima parte di elettroforesi, una seconda parte di trasferimento del DNA su una membrana e una terza fase di rivelazione del DNA tramite sonde. Il Southern blot viene usato per identificare la molecola di DNA di interesse per caratterizzarla. Una volta effettuata l’elettroforesi (corsa nel gel di agarosio, in concentrazione proporzionale rispetto alla size delle molecole che si vogliono analizzare), il DNA (o RNA) viene trasferito per capillarità costruendo un complesso alla base del quale c’è una spugna, poi il gel, poi la membrana di nitrocellulosa e infine la carta. La base è ricoperta di una soluzione tampone e la carta è parzialmente imbevuta di questa soluzione tampone e, per capillarità, promuoverà lo spostamento delle molecole che sono nel gel di agarosio sulla membrana di nitrocellulosa (di carica opposta). Per essere sicuri che il trasferimento sia avvenuto si guardano le differenze riportate sul gel prima e dopo il procedimento. Se questo procedimento viene fatto con le proteine, il marcatore è colorato e quindi si capisce bene subito se il trasferimento è avvenuto: le bande colorate sono presenti sulla membrana e assenti sul gel. A questo punto, si fa un’ibridazione: si mette in un sacchetto di plastica all’interno del quale viene inserita la soluzione di ibridazione che contiene dei reagenti che bloccano legami aspecifici. Il tutto avviene a temperature abbastanza elevate in modo da favorire l’ibridazione della sonda al DNA (a doppio filamento). Anche questo passaggio è abbastanza lungo e il giorno successivo vengono effettuati dei lavaggi con dei sali che hanno concentrazioni elevate in modo tale che dove l’ibridazione è parziale il sale può andare a staccare le interazioni. Così la sonda viene creata con una lasta a raggi X o con dei macchinari che servono apposta a rivelarla: così si visualizzano il marcatore di dimensione e le sonde. àPuò trattarsi di frammenti di DNA ottenuti con enzimi di restrizione (Southern blot) o di uno specifico mRNA all'interno di una preparazione di mRNA totale (Northern blot). Questo principio è stato usato molto nelle banche a DNA, per esempio per ricostruire regioni continue. Una libreria di DNA è una collezione di frammenti di DNA clonati in uno specifico vettore di clonaggio che, nell'insieme, rappresenta l'intero genoma dell'organismo da cui il DNA è stato isolato. Tale tipo di libreria viene definita genomica. Le librerie di DNA sono state usate in passato per l'isolamento e il clonaggio di geni, perché tali approcci sono stati essenziali per comprendere a livello molecolare la funzione dei geni. Tuttavia, in questi ultimi anni, lo sviluppo della tecnica nota come Polymerase Chain Reaction (PCR) permette di sintetizzare in vitro e clonare qualunque segmento di DNA la cui sequenza sia nota in modo relativamente facile e rapido. Per fare una libreria genomica, il DNA deve essere frammentato. L'ibridazione in situ o citologica permette di visualizzare dov’è localizzata la sequenza bersaglio in strutture cellulari o istologiche. Le sonde possono essere radioattive, e quindi individuabili mediante autoradiografia, oppure fluorescenti e quindi individuabili tramite microscopia. È possibile visualizzare la posizione di specifiche sequenze genomiche in particolari regioni del nucleo o nei cromosomi metafasici. Analogamente, si può indagare la localizzazione di specifici mRNA all'interno di una cellula o di un tessuto. In particolare, la DNA FISH su cromosomi interfasici viene realizzata quando si vogliono studiare gli eventi di regolazione a livello di loci genetici (che portano a alterazioni molto piccole della struttura dei cromosomi). Per esempio, se si prendono due loci coinvolti nello sviluppo del sistema nervoso e si vuole studiare come interagiscono tridimensionalmente nel nucleo, si usa la DNA FISH su cromosomi interfasici. Si basa sull’utilizzo di sonde fluorescenti e, appunto perché si usa la fluorescenza, si possono usare nucleotidi marcati con molecole fluorescenti che possono essere citate a lunghezze d’onda diverse e emettere il segnale, a una determinata lunghezza d’onda, che sia riconoscibile per quella sequenza. Il protocollo della multicolor DNA FISH (appunto perché si usano sonde diverse) prevede diversi step: - La preparazione della sonda DNA. La sonda DNA deve essere complementare al target genomico in modo che si possa analizzare all’interno dei nuclei dei mioblasti. Come substrato per produrre le sonde si usano i plasmidi o dei BACs (Bacterial Artificial Chromosome, possono esse acquistati e quelli che coprono la regione di interesse possono essere scelti tramite l’indagine sul genome broswer che ha in sé tutta l’informazione del genoma umano e permette di vedere quali BACs esistono e quali hanno all’interno la sequenza nota di interesse). Ovviamente, per essere sicuri che si amplifichino solo i batteri che contengono il BAC e non si abbia una contaminazione, il BAC deve contenere una resistenza antibiotica. A partire poi da questo BAC si possono produrre le sonde fluorescenti tutte le volte che si vuole: si possono produrre con random priming o nick translation. Si possono usare sonde marcate con nucleotidi che hanno all’interno, per esempio, molecole che possono essere riconosciute da anticorpi specifici (sono sonde indirette). Le sonde devono però essere molto piccole perché poi verranno usate per essere ibridate al DNA. - La preparazione delle cellule primarie. Nello scaldare le cellule, queste non rimangono intatte. Il primo passaggio, infatti, è il fixing con la paraformaldeide che è un reagente che permette di generare legami covalenti tra proteine-proteine e proteine-acidi nucleici. Quando si trattano le cellule con la paraformaldeide, le cellule è come se fossero fissate nel loro stato attuale. Dopo averle fissate su un vetrino (diametro dai 10 ai 14 mm), devono poi essere permeabilizzate per permettere l’entrata della sonda fluorescente. Per rendere permeabili le cellule, senza modificare le sue proprietà, si usano dei detergenti biologici (molecole anfipatiche che hanno le teste polari o cariche all’estremità di lunghi gruppi idrocarburici lipofili ovvero le code) che normalmente vengono usati per distruggere il layer bipolare delle membrane cellulari. In particolare, si usa il detergente Triton che è anionico e quindi con una forza molto inferiore rispetto all’SDS. Successivamente, si fanno delle freeze and thaw: le cellule vengono poste per 4 volte, e per 30 secondi l’una, su dei panetti di ghiaccio secco (CO2 solida) che sono a temperatura di –80°C. Questo serve per rompere la cellula. A questo punto si deve rendere disponibile il DNA, ora superavvolto agli istoni, per le sonde: si deve liberare il DNA da queste proteine basiche usando HCl a concentrazioni basse (0,1N) per 12 minutiàcosì si solubilizzano le proteine basiche attaccate al DNA. Oltre all’HCl, il DNA viene ottenuto in soluzione di formammide che ha la funzione di abbassare la temperatura di melting. - L’ibridazione. La sonda viene preparata in un volume molto piccolo ovvero un rettangolo di vetro e, a questo punto, le cellule che si trovano sul vetrino vengono messe in contatto con la sonda e il tutto viene poi scaldato in modo tale da favorire la denaturazione del DNA e favorire la rinaturazione del DNA con la sonda fluorescente. - La detezione al microscopio con seguente analisi. Il giorno dopo si lava in modo da togliere l’eccesso e i vetrini vengono poi montati. Il nucleo viene colorato con il DAPI (agente intercalante del DNA sul solco minore e può essere rilevato in microscopia). In questo modo, le cellule vengono infine analizzate. LEZIONE 31 TECNICHE PER LO STUDIO DELL’RNA La domanda che ci si pone è: “il gene/la nuova isoforma trascrizionale identificata è espressa nella cellula di interesse?”. Le tecniche utili sono: Northern blot, RTq-CPR e RNA-seq. Norterhn blot – Analisi qualitativa e quantitativa dell’RNA La prima cosa da fare per fare è isolare l’RNA, estrarlo e purificarlo in modo specifico dalle cellule. I principi di isolamento ed estrazione dell’RNA seguono di pari passo quelli del DNA, differiscono per l’utilizzo di specifici reagenti. Il primo metodo più datato prevedeva l’estrazione diretta dell’RNA mediante lisi con guanidina-tiocianato 5M che aiuta a denaturare le proteine. In questo caso, le cellule o il tessuto vengono omogeneizzati nel mezzo di lisi e successivamente il lisato viene inserito in una provetta da ultracentrifuga, contenente una soluzione di cloruro di cesio (CsCl). Dato che l’RNA è più pesante degli altri componenti del lisato, alla fine della centrifugazione si trova sul fondo della provetta e può essere recuperato dopo eliminazione del sovranatante. Viene poi lavato con etanolo freddo (-20°C) al 70%, asciugato e reidratato. L’acido nucleico a questo punto può essere precipitato, lavato e risospeso nel volume desiderato. La quantità che si ottiene dipende dalle cellule che si stanno usando, in media da un milione di cellule si ottiene circa 5-10 μg (dipende dall’attività trascrizionale, per esempio le cellule staminali embrionali pluripotenti prese così non trascrivono quasi niente). Oggi esistono vari tamponi commerciali già pronti per l’isolamento dell’RNA, per esempio il Trizol, grazie ai quali si può effettuare l’estrazione in modo molto veloce e usando semplicemente provette da 2mL e una centrifuga da banco. I protocolli appena descritti sono abbastanza sicuri per quello che riguarda la contaminazione del campione da RNasi, se nei passaggi successivi alla lisi e alla precipitazione vengono usati materiali Rnase-free. La tecnica dei Northern blot usata per identificare trascritti di RNA si basa sulla separazione elettroforetica dei frammenti nucleotidici, sul loro trasferimento su un supporto solido (membrana di nitrocellulosa) e successiva esposizione a una molecola di DNA di sequenza nota e marcata, che funziona da sonda. Il fine è quello di identificare la presenza dei trascritti allo scopo, per esempio, di monitorare il livello di espressione. Infatti, attraverso il Northern blot si può analizzare qualitativamente e quantitativamente l’RNA, identificando la lunghezza del trascritto e l’eventuale presenza di sue varianti dovute, per esempio, a promotori ectopici oppure a splicing alternativo. Inoltre, la rilevazione del trascritto per autoradiografia permette di stabilirne il livello di espressione in tessuti diversi e di fare quindi una prima analisi dell’espressione genica in campioni con caratteristiche diverse (per esempio sani e malati trattati e non trattati). Infatti, monitorare l’espressione di un gene significa fare una valutazione quantitativa della presenza sonda impressiona la lastra esattamente all’altezza del peso molecolare dell’RNA trascritto. Nel caso del Northern blot l’incubazione della cassetta a -80°C aumenta di molto la risoluzione del segnale ma rispetto al Southern blot i tempi di esposizione possono essere considerevolmente più lunghi. LEZIONE 32 CENNI DI BIOINFORMATICA NGS: Next Generation Sequencing Negli ultimi 10 anni lo sviluppo di nuove tecnologie di sequenziamento molto efficienti e economiche ha rivoluzionato il modo di fare ricerca. Queste nuove tecnologie permettono di svolgere molte reazioni di sequenziamento in parallelo aumentando così la capacità produttiva (throughput) dei sequenziatori. L’introduzione delle tecnologie NGS ha portato a un aumento esponenziale del numero di dati disponibili, rendendo così indispensabile l’utilizzo e l’ottimizzazione di strumenti informatici dedicati alla gestione e analisi del dato. Negli anni, con lo sviluppo di nuove tecnologie, il trend dei costi di sequenziamento è in netta discesa: c’è stato un aumento esponenziale dei dati e una drammatica riduzione dei costi (più produci più cala il costo). Questo comporta un aumento del numero di esperimenti NGS che vengono fatti con conseguente aumento del numero di dati prodotti. L’analisi e lo storage (ovvero il salvataggio) di dati NGS richiede competenze bioinformatiche e infrastruttura informatica di alto livello (HPC). L’aumento esponenziale del numero di dati e la diminuzione dei costi ha portato anche a dei vantaggi nella standardizzazione delle analisi perché più aumentano i dati più c’è richiesta di strumenti bioinformatici che permettono un’analisi del dato in maniera sempre più veloce. Quindi, i bioinformatici con l’avvento delle NGS hanno dovuto gestire questi dati e sviluppare queste pipeline: ciò ha permesso di diminuire i costi di sequenziamento e gestione del dato lasciando più spazio all’ottimizzazione del design sperimentale e all’interpretazione del dato. à Da un punto di vista bioinformatico si possono perfezionare le procedure di analisi ma il design sperimentale che sta dietro a un esperimento di NGS, così come l’interpretazione del dato dal bioinformatico insieme al laboratorio, deve avere il tempo necessario e pertanto questo ha portato sicuramente un gran vantaggio anche nell’interpretazione dei dati. Quello che si vede nell’immagine è che nei primi anni si spendeva molto tempo nella produzione e nell’analisi del dato, adesso questo ha permesso invece negli ultimi anni di aumentare il tempo speso per l’interpretazione del dato. Nell’immagine sono mostrate le principali applicazioni di NGS: - A livello genomico permette l’analisi delle copy number variation, di mutazioni puntiformi, di index. - Analisi di trascrittomi, in particolare quella di RNA-Sequencing. - A livello di epigenetica affronteremo la ChiP-Seq, e altre tecnologie che permettono di studiare l’accessibilità della cromatina, le modificazioni istoniche e il binding di fattori di trascrizione. RNA-seq La tecnologia di RNA-sequencing permette di scoprire e profilare il trascrittoma di ogni organismo. Il trascrittoma è il set completo di trascritti espressi in una cellula e la relativa quantità in una specifica condizione. Anche se il contenuto di RNA di una cellula è variabile e specifico del tipo cellulare e/o stato di sviluppo, si possono quantificare in 300,000/400,000 il numero di molecole di RNA per cellula comprendenti circa 10,000/15,000 trascritti diversi. Alcuni trascritti sono molto abbondanti e presenti in centinaia di copie per cellula (3-5%) mentre la maggior parte sono presenti in pochissime copie (<0.1%). Quindi, quello che permette di fare l’RNA-Seq è, per ogni campione che si profila, avere idea della quantità di espressione di ogni singolo trascritto che è espresso nelle cellule di interesse. Mediamente, si ha un’espressione di 10.000/15.000 geni a livello di ogni campione e si può vedere se si ha una condizione sano/malato se alcuni geni possono essere differenziali, cioè avere un trend di espressione differente nelle due specifiche condizioni. Obiettivi principali dell’RNA-seq: - Quantificare e comparare i livelli di espressione di ogni trascritto in differenti condizioni. - Quantificare l’abbondanza dell’mRNA. - Determinare la struttura trascrizionale dei geni: TSS, 51 e 31 ends, e anche se ci sono trascritti nuovi che sono specificatamente espressi nel campione di interesse. Preparazione della libreria 1. Una popolazione di RNA (totale o polyA) viene convertita in una libreria di frammenti di cDNA. Arricchimento mRNA. Quando estratto, l’RNA contiene circa 80-85% di rRNA e 10-15% di tRNA, quindi l’mRNA (circa 2%) necessita di essere amplificato. Questo arricchimento viene in genere fatto tramite l’utilizzo di beads con oligo(dT) o mediante rimozione di RNA ribosomiale tramite sequenze complementari (approccio Ribo-minus). Importante sottolineare che gli RNA non poliadenilati, come trascritti istonici o mRNA immaturi, non vengono catturati con questo protocollo mentre il ribo-minus non esclude gli RNA non ancora sottoposti a splicing. 2. Attacco degli adattatori ad entrambe le estremità dei frammenti. 3. Ogni molecola viene così sequenziata ottenendo corte sequenze da una estremità (single-end o SE) o entrambe le estremità (paired-end o PE). Quindi abbiamo una libreria di cDNA che vengono letti dal sequenziatore. Il concetto di “read” è alla base di tutte le tecniche di sequenziamento: per “read” si intende la sequenza di una porzione unica di un frammento di RNA/DNA (in questo caso di RNA dato che si parla di RNA-Seq). Se un RNA è espresso a alto numero di copie ci saranno più reads che derivano da quella molecola. Quindi quanto più è espresso un trascritto tante più reads conteranno per quella specifica molecola. Le moderne tecnologie di sequenziamento si dividono in 2 categorie anche a seconda delle reads che producono: - Seconda generazione: generano un numero di read considerevole con un’accuratezza elevata (tasso di errore <1%) ma con una lunghezza ridotta (dette corte), solitamente compresa tra 50 e 250 nt per Illumina, fino a 700 nt per Roche 454, circa 100nt per SOLiD e fino a 400 per la Ion Proton. - Terza generazione: producono delle read molto lunghe (>5kb) ma presentano un alto tasso di errore medio dal 15% di PacBio al 35% di ONT. Quindi, a seconda dell’obiettivo dell’esperimento, si sceglie se adottare delle read corte o molto lunghe e questo dipende dal tipo di analisi che si vuole compiere. - Solitamente esperimenti più quantitativi, come l’RNA-Seq e ChIP-Seq, usano la tecnologia Illumina, con produzione di un gran numero di read ma più corte. - Se, invece, si parla di assemblaggio di genomi o approcci più qualitativi si usano le reads più lunghe. Dei concetti importanti che si trovano quando si parla di tecniche di sequenziamento sono: • Profondità di sequencing (sequencing depth): numero di read che vengono sequenziate per campione. Quindi, quando si fa la preparazione della libreria e design sperimentale, a seconda dell’obiettivo dello studio, si decide il numero di read che si associa a ogni campione. Ovviamente, più si va in profondità e più si riusciranno a detectare anche i trascritti che hanno livelli di espressioni molto bassi. à Più si aumenta la profondità di sequenziamento e più si avrà un profilo sperimentale preciso. Quindi, se l’obiettivo è sapere solo quanti geni sono espressi si può adottare una profondità di sequencing relativamente bassa mentre se si vuole identificare delle nuove isoforme o avere un’idea precisa delle isoforme che sono espresse in un determinato gene, si userà una profondità più elevata. Per esempio, se si legge “sequencing depth = 30 milioni” significa che per ogni campione si ottengono 30 milioni di reads. • Copertura (coverage): descrive con quale frequenza, in media, ciascuna base di una sequenza di riferimento (genoma) è coperta dalle read allineate. È spesso definita come 1X, 2X, 10X che indica 1, 2 o 10 volte la copertura. Vuol dire che di media nel genoma si ha una copertura per ogni base di 10 read. Quindi, tanto più una base è coperta, tanto più le read coprono le basi del genoma, tanto più abbiamo copertura. Quindi, più elevato è il numero di read, più alto sarà anche il suo coverage. Questo è molto importante quando si fanno esperimenti di gene sequencing, dove si fanno le chiamate delle varianti, in cui è importante che la copertura sia elevata e quindi la chiamata sia affidabile. Invece, per RNA-Seq e ChIP-Seq si può avere anche un coverage relativamente basso se l’obiettivo è solo profilare i trascritti che sono espressi. L’immagine indica quante basi per campione servono a seconda delle diverse tecnologie. La profondità e quindi i costi di un esperimento aumentano a partire dalla ChIP-seq (chromatin immunoprecipitation followed by sequencing), RNA sequencing (RNA-seq), whole-exome sequencing (WES) fino a whole-genome sequencing (WGS). Per esempio, la ChIP-Seq richiede una copertura di base mediamente più bassa rispetto a un gene sequencing che, invece, se si deve andare a determinare delle varianti si avrà bisogno di più copertura. L’RNA-Seq ha una distribuzione un po’ più ampia perché dipende da qual è l’obiettivo degli esperimenti, cioè se si si vuole profilare solo un trascrittoma in generale e, quindi, sapere solo quali geni sono espressi si può avere una bassa copertura mentre se si vuole andare nel dettaglio e definire quali isoforme sono espresse e definire anche dei nuovi geni che sono specificatamente espressi in quelle cellule, si ha bisogno di una profondità più elevata. Quindi, profondità più elevata se si vuole andare più nel dettaglio ma dipende dalla tecnologia che vogliamo adottarr. Analisi di dati di RNA-seq: workflow Per comprendere gli step necessari per l’analisi dei dati quindi bisogna tenere a mente questi due concetti: - Read=lettura parziale del frammento che stiamo andando a sequenziare. - Coverage=milioni di reads che sono necessarie per profilare un trascrittoma. Gli step fondamentali sono quelli rappresentati nell’immagine a sinistra. Si parte da dei dati grezzi che arrivano dal sequenziatore che poi bisogna analizzare per poter avere l’output finale. Quindi, bisogna prima di tutto valutare la qualità di questi dati e quindi si fanno delle plot di qualità. Se dicono che il sequenziamento è andato bene significa che la qualità Se, come dicevamo, consideriamo delle reads di 450 in lunghezza, se abbiamo il single-end leggeremo solo 150 basi delle 450 di tutto l’intero frammento, se invece abbiamo il paired-end leggeremo 150 da una parte e 150 dall’altra, e poi avremo un buco, che se la lunghezza è di 450 sarà 450-150-150 =150 (quindi avremo un buco di 150 basi, come si vede nell’immagine). È importante per un bioinformatico sapere mediamente quant’è la lunghezza di questi frammenti prodotti, perché si deve stimare quante sono più o meno il numero di basi che sono sconosciute tra le due read. L’errore più comune nel sequenziamento è la sostituzione di base anche se complessivamente l’accuratezza complessiva è molto elevata con una % di errore <0.1%. Il tasso si errore tende a aumentare verso la fine della read a causa della perdita di efficienza della polimerasi. Quindi abbiamo detto che abbiamo milioni di letture che possono essere in single-end o in paired-end. à Cosa arriva al bioinformatico di queste letture? Gli arriva un file che si chiama FASTQ cioè un file in formato FASTA: con la sequenza della read + un indicatore di qualità (Q) cioè si sa per ogni base sequenziata la qualità associata e, quindi, se si ha una buona lettura. Per questo il primo step per un bioinformatico è valutare la qualità delle read perché questo formato FASTQ permette di fare questa cosa. Riprendendo l’esempio di prima in cui erano stati sequenziati 12 campioni, di questi 12 si hanno 6 campioni per il progetto tumore e 6 per il progetto normaleàci sono due condizioni da comparare. Si otterranno tanti FASTQ file quanti sono i campioni e si può avere l’informazione della read se si fa il single- end o sia di read 1 che read 2 se si fa il paired-end. Quindi, se si ha una modalità single-end si otterrà solo un file FASTQ per ogni campione mentre se si ha la modalità paired-end si otterranno 2 file FASTQ. Come sono fatti i file FASTQ? Sicuramente devono avere dentro le 150 basi che sono state lette con la read (nel caso dell’immagine sarebbe con la read 1 perché underscore R1 indica la read 1 ovvero la read gialla). Con la read 1 si sequenziano 150 basi, quindi qua dentro si hanno tutte le milioni di letture (infatti sono GB di file) di tutti gli R1 di tutti i frammenti che derivano dallo specifico campione. Questi file sono chunk di 4 righe (ogni riquadro rosso nell’immagine corrisponde a una lettura) e così via per milioni di letture (sono file enormi). Quindi non è una riga una lettura ma sono 4 righe per ogni lettura perché si ha bisogno della sequenza che è stata letta ma anche della qualità che indica la qualità di sequenziamento. • Dalla prima linea (in verde nell’immagine a destra) si sa da dove deriva la read sulla flowcell. Infatti da questa riga si hanno informazioni come il tipo di strumento che è stato usato, della lane della flowcell da cui deriva, le coordinate del cluster che si formaàsi sa esattamente dov’è posizionata. Questo è fondamentale perché quando si ha un paired-end mode si sa dov’è la corrispettiva read nel file R1 e R2 perché in paired-end si sa quale read deriva da un frammento e qual è la sua corrispondente coppia. • La seconda linea è quello di interesse, è la sequenza letta di quel frammento. Quindi, se si ha sequenziato la lettura di 150 basi si avranno 150 basi lette. • La terza linea inizia con il carattere + e è uno spaziatore che potrebbe essere seguito da delle informazioni aggiuntive bioinformatiche. • La quarta linea indica la qualità cioè per ogni base si sa esattamente la qualità associata e ha un codice specifico che si chiama Phred score in cui a ogni lettera corrisponde un valore della qualità. La qualità delle sequenze va da 1 a 40: più si è vicini a 40 e più la qualità della base è elevata. Per esempio, la prima base letta nell’immagine è la G che corrisponde a qualità C e la tabella di conversione dice esattamente quanto vale la qualità: C nel Q-score (ovvero lo score di qualità) vale 34 che su una scala da 1 a 40 significa che questa base è stata letta molto bene. Una H, invece, corrisponde a 39 di qualità e anche questo indica una qualità elevata. Di solito la qualità è distribuita in modo abbastanza uniforme sulla read, cioè se una read non è buona significa che non è buona in gran parte della sua sequenza. Per esempio, potrebbe avere qualità molto elevate all’inizio e poi se si hanno problemi di sequenziamento può decadere verso la fine. Quindi, il primo step per i bioinformatici è valutare tutte le read per ogni campione e vedere se hanno qualità buone. Riassumendo: dal sequenziamento si ottengono delle read che possono essere in single-end o paired-end, il bioinformatico ottiene la reale lettura di basi a cui viene aggiunta la qualità che permette di valutare se il sequenziamento è avvenuto bene (va da 1 a 40, più ci si avvicina a 40 e più è buona). Qualità dei dati FASTQ Si è visto che nel primo step si ottengono dei dati di sequenziamento che possono essere multiplexati e il bioinformatico li deve de-multiplexare per capire a quale campione appartengono le read. Una volta ottenute le read, deve valutarne la qualità: le read sono in formato FATSTQ quindi in formato FASTA associato alla qualità e dei tool permettono di valutare la qualità e ne permettono la visualizzazione a livello grafico. Uno dei tool più usati è FastQC, cioè quality control dei FASTA. Qualità per ogni base della sequenza. Il plot da un’idea del range dei valori di qualità di ogni singola base della read e, quindi, del file FASTQ. Sull’asse y è rappresentato lo score di qualità, più alto è lo score, migliore è la qualità della base chiamata (da 0 a max 40). Sull’asse delle x c’è la posizione della read (fino a 150). Le tre fasce indicano la qualità: 0-20 è molto bassa e il colore è rosso, il colore arancione indica qualità media mentre quando la qualità è molto buona c’è il colore verde. Per ogni campione si hanno milioni di read e ogni read ha 150 basi quindi questi sono i valori in boxplot di tutte le qualità di ogni readàè una distribuzione. Un boxplot è un grafico che permette di vedere la distribuzione di tutti i valori: la linea centrale rossa indica la mediana, il box giallo rappresenta il range interquatile (25-75%) e i whiskers rappresentano i punti fino al 10% e 90%. Grafico 1: mostra che la qualità di tutti i milioni di read ottenuti è elevata per tutta la lunghezza della read. Non si ha drop di sequenziamento, cioè non si hanno avuto problemi di sequenziamentoàsi procede con l’analisi. Grafico 2: le prime basi hanno un’elevata qualità per tutti i milioni di read sequenziati ma ciò tende a decrescere sulla lunghezza della read. Il bioinformatico poi stabilirà dei parametri per scartare le read che non vanno bene e che cadono nella regione rossa. à Con questi grafici si decide come procedere per la valutazione della qualità dei campioni. Contenuto di ogni base nella posizione della read. Plot della proporzione per ogni base della read delle 4 basi di DNA chiamate: si deve valutare che la distribuzione delle 4 basi di DNA chiamate sia abbastanza omogenea, cioè non abbia prevalenza di una base rispetto ad un’altra. Di solito da una libreria randomica di RNA-Seq ci si aspetterebbe una situazione come quella nel primo grafico in cui si ha un bilanciamento della percentuale in basi, cioè non ci sono grandi differenze tra le 4 basi per ogni posizione della read. Mentre se dovesse verificarsi una differenza nelle basi solitamente è indicativa di problemi nella produzione della library, di presenza di contaminanti o di sequenze overappresentare (per esempio, perchè ricche di A) che contaminano la libreria. In questo caso il bioinformatico valuta l’andamento e decide se è un buon risultato. Sequenze overrappresentate del pool di reads. Un’altra informazione importante è capire se si hanno delle sequenze molto rappresentate nella libreria e questo può voler dire due cose: se una singola sequenza è molto rappresentata può sia significare che sia molto significativa dal punto di vista biologico sia che la libreria è contaminata. Quello che fa questo software, data la sequenza, è cercare cosa possa essere e, nell’eventualità che venga riconosciuta, può dire se è un contaminante. In questo caso il bioinformatico scarterà queste reads perché è in grado di recuperarle. Mappaggio delle reads Ottenute le read, sono state valutate a livello qualitativo. Una volta che si hanno queste letture, come si fa a dire che il gene x vale un tot? Si devono mappare le read sul genoma di riferimento. Si hanno i trascritti e li si mappa sul genoma. Una volta che si ha il pool di reads li si mappa sul genoma di riferimento, si sanno localizzare in modo preciso il cromosoma 1 da coordinata x a coordinata y dove si trovano queste 150 basi che sono state sequenziate. Ovviamente, siccome viene sequenziato il trascrittoma, si avranno le reads in corrispondenza degli esoni dei trascritti. L’immagine è una rappresentazione grafica di come avviene il mappaggio (su una porzione di genoma, ma bisogna immaginarlo su tutto il genoma di riferimento): ci sono tanti tool di mappaggio a cui viene dato in pasto il formato FASTQ (un file con tutte le letture), il genoma di riferimento in formato FASTA (la sequenza dei cromosomi) e l’annotazione (file che dice esattamente che il gene x si trova sul cromosoma 1 a queste coordinate). Quindi, si sa mappare esattamente le read grazie al genoma ma poi Si va a contare il numero delle reads per tutti i geni e si otterrà un numero intero (per esempio 8 per il gene X e 4 per il gene Y) che deve essere normalizzato perché entrano diversi fattori in gioco. I fattori principali che vengono considerati nella normalizzazione sono: - Profondità di sequenziamento, se si ha un campione che viene sequenziato 30M di reads e un campione sequenziato a 10M di reads, il numero di reads che cadranno deve essere normalizzato per il numero totale delle reads. - Lunghezza del gene, più un gene è lungo più ci cadranno reads. - Composizione dell’RNA. Quindi, una volta ottenuto questo numero grezzo si deve tenere conto che il gene X è più lungo del gene Y perciò se si devono comparare i livelli di espressione si deve tenere in conto questo fattore. Profondità di sequenziamento È necessario se si comparano i valori di espressione dei geni tra diversi campioni. Nell’esempio a fianco, ogni gene mostra un livello di espressione doppio nel campione A rispetto a B. Questa è conseguenza del fatto che il campione A ha il doppio della profondità di sequenziamento rispetto a B. Quindi, si vede che il campione B è stato sequenziato molto meno del campione A e allora si deve sicuramente dividere per il numero totale delle reads che si hanno per il campione A e per il campione B. Se, per esempio, nel campione A per il gene X cadono 30 reads e in B ne cadono 10, si deve dividere questo numero per il numero totale delle reads del campione, così si riescono a paragonare i livelli di espressione dello stesso gene in due campioni diversi. Lunghezza del gene È necessaria per comparare l’espressione di diversi geni all’interno dello stesso campione. Nell’esempio, il gene X e il gene Y hanno livelli di espressione simili ma il numero di reads che mappano nel gene X è maggiore rispetto al numero di reads che mappa sul gene Y perché il gene X è molto più lungo. Composizione dell’RNA Ci sono pochi geni differenzialmente espressi, differenze nel numero di geni espressi tra i campioni o presenza di contaminazione che possono influenzare i metodi di normalizzazione. È il fattore più importante quando si comparano campioni diversi durante un’analisi differenziale. Con l’RNA-seq è possibile anche valutare l’abbondanza relativa dei trascritti alternativi espressi da uno stesso gene. Questo grazie a metodi statistici che considerano le read univocamente attribuibili a una specifica isoforma (blu chiaro e grigio), considerando anche le read mappate su entrambe le isoforme (blu scuro). Una volta che per ogni gene è stato ottenuto un valore (che è il numero di reads che cadono in quel determinato locus) normalizzato per la lunghezza e almeno per il numero totale delle reads. Analisi differenziale e arricchimento funzionale Una volta che si hanno i valori di campione A e campione B si può eseguire un’analisi differenziale. Per esempio, si può dire se il gene 1 è più espresso nel campione A rispetto al campione B. In questo caso a occhio si direbbe di sì ma in realtà la visualizzazione a occhio è scorretta perché si deve normalizzare per il numero totale delle reads e la normalizzazione è fondamentale perché se non si tiene conto che si possono avere dei bias dettati dalla profondità di sequenziamento, si può valutare in modo scorretta se un gene è più espresso da una parte o dall’altra. Quindi, una volta che si ha la quantificazione dell’espressione e si ha normalizzato per i fattori detti prima, si può procedere con l’espressione differenziale. Ottenute le conte, ci sono dei tool apposta che permettono di normalizzare il dato nel modo corretto e dire se il gene 1 è differenzialmente espresso tra campione A e B. Ovviamente, per fare un’analisi statistica robusta, occorre avere più replicati biologici per lo stesso campione: per esempio, se si ha il progetto tumore e il progetto normale e si hanno 6 campioni, è robusta l’analisi se si ha un numero di campioni di replicati superiore a 3 per ognuna delle due condizioni. Quando si progetta un esperimento di RNA-seq si deve tenere conto di non avere solo un campione per condizione ma avere almeno 3 campioni per ogni condizione, così che si possa fare una statistica robusta. Dopo l’output di un’analisi differenziale si ha una lista di geni che è difficile da decifrare soltanto leggendo il nome dei geni perché a volte ce ne sono anche migliaia che sono differenzialmente espressi e quindi il bioinformatico fa delle analisi di arricchimento funzionale per capire quali processi biologici i geni che sono differenzialmente espressi. à Ci sono diversi tipi di analisi di arricchimento funzionale che permettono di dire che questo gruppo di geni che si trova differenzialmente espresso è coinvolto in specifiche funzioni biologiche. Riassunto dell’RNA-seq: ottenute reads, indicative della quantificazione di un trascritto all’interno di un campione di interesse, le si mappa al genoma di riferimento in modo da localizzare in modo preciso laddove arriva questa read e dire se appartiene al gene X. Questo gene X, in base al numero di reads che cadono dentro, avrà un valore che deve essere normalizzato per dei fattori. È possibile quindi (se si ha un numero di replicati per condizione almeno superiore a 3) fare un’analisi differenziale e vedere quali geni sono differenzialmente espressi in una condizione rispetto a un’altra. Una volta ottenuta la lista di geni che sono differenziali dal campione di riferimento, si può vedere se sono coinvolti in precise funzioni biologiche. ChIP-seq Chromatin immunoprecipitation accoppiato con massive parallel sequencing (ChIP-seq) è una potente tecnologia per identificare le posizioni nel genoma in cui avviene il legame DNA-proteina, come fattori di trascrizione e modificazioni istoniche. È la tecnica genomica d’eccellenza per studiare l’organizzazione della cromatina. A seconda di come si effettua la ChIP-seq, ciò che si ottiene a livello bioinformatico sono le regioni di DNA che sono state coinvolte nel cross-linking tra il pezzo di DNA e la proteina di interesse oppure modifiche istoniche di interesse. Verosimilmente all’RNA-seq, invece di avere delle reads che derivano dai trascritti, si avranno delle reads che derivano da questi frammenti di DNA che erano associati al fattore di interesse, che può essere un fattore di trascrizione o una modifica istonica di interesse. • Qualità della ChIP-seq Come l’RNA-seq, ha dei passaggi che devono valutarne la qualità, che non dipende tanto dal sequenziamento ma dalla specificità e sensitività dell’anticorpo che è stato usato per il fattore di legame al DNA. Anticorpi altamente specifici danno un arricchimento molto forte e pulito (migliore è il binding dell’anticorpo con la regione di interesse, più pulito sarà il segnale che si vedrà). Invece, con l’utilizzo di un anticorpo che è poco specifico e debole si rischia di identificare delle regioni che in realtà sono aspecifiche, che comporta un aumento del rumore di fondo. Quindi, è molto importante avere un anticorpo che riconosca in maniera precisa la regione di interesse. • Utilizzo di controlli Rispetto all’RNA-seq, si usano dei controlli di qualità che permettono di dire se l’esperimento è avvenuto in maniera corretta e se la specificità dell’anticorpo è adeguata. Ci sono 3 possibili controlli: - Input, è la cromatina prima dell’avvento dell’immunoprecipitazione (controllo più usato). - Mock, cromatina in cui avviene immunoprecipitazione senza l’anticorpo di interesse. - IP non-specifico, è la cromatina trattata facendo avvenire immunoprecipitazione contro immunoglobulina G (controllo meno usato). Quindi, quando si ha, per esempio, una ChIP-seq per un fattore di trascrizione di interesse, quello che si associa sempre è lo stesso campione in cui non avviene l’immunoprecipitazione per i fattori di interesse e quello sarà il normalizzatore. Quindi, quello che avviene con la ChIP-seq è l’uso di controlli che permettono di dire se il segnale è pulito e permettono di pulire questo segnale. Ovviamente, è importante usare un anticorpo che abbia una certa specificità. • Profondità di sequenziamento Anche per la ChIP-seq è importante la profondità di sequenziamento ma si deve stare attenti perché un sequenziamento più profondo è raccomandato per fattori con pattern di legame diffuso (solitamente associate a funzioni repressorie) rispetto a pattern più localizzati (solitamente associate a funzioni attive). Inoltre, è importante sequenziare l’IP e il controllo a profondità comparabili per permettere una corretta chiamata del picco. Step del workflow (molto in comune con l’RNA-seq) • Stessa base dell’RNAseq in cui si ottengono i FASTQ ma, invece di avere l’informazione dell’RNA, si avrà l’informazione del DNA che era legato alla proteina di interesse. • Cambiano i tool di mappaggio ma gli step fondamentali sono sempre gli stessi. Quindi si valuta la qualità, si allinea sul genoma di riferimento e poi quello che si ottiene è come si chiamano queste regioni che sono arricchite per il fattore di interesse, cioè dove il DNA viene effettivamente legato dal fattore di interesse. Identificazione e chiamata del picco Queste regioni vengono chiamate picchiàin ChIP-seq la chiamata del picco significa identificare le regioni che presentano un arricchimento significativo del segnale di ChIP rispetto al background. Per la maggior parte degli esperimenti di ChIPseq che sono in single end mode (perché non interessa avere una profondità elevata in ChIPseq perché è più qualitativa, è più sul localizzare dove sono queste regioni che quantificare). I frammenti di DNA sono sequenziati dal 51-end: ciò comporta la formazione di un segnale con distribuzione bimodale intorno al vero sito di legame, con un profilo formato da reads mappate sullo strand + (blu) un altro formato da reads provenienti dallo strand – (rosso). Per la corretta localizzazione del sito di legame, i programmi deputati alla chiamata del picco modellano in maniera empirica la distanza tra i due profili e stimano la posizione più probabile in cui avviene il legame. A livello bioinformatico si è in grado di ricavare le coordinate di dove avviene il legame grazie a questa trasformazione. Si ha una visualizzazione simile a quella dell’RNA-seq: si riescono a visualizzare dove si localizzano le read (rosso o blu in base a se derivano dallo strand + o –) e, quindi, si riesce a localizzare esattamente dov’è avvenuto l’arricchimento del legame di DNA alla proteina di interesse. Quello che fanno i tool di ChIP-seq è definire esattamente le coordinate di questi arricchimenti. à Nono solo si vede il coverage ma si riesce anche a definire in modo preciso le coordinate in cui avviene questo arricchimento. Ci sono diversi tool che permettono di fare questa cosa. Questo è un esempio di come si distribuisce un segnale di ChIPseq rispetto al suo input. Come si può notare dall’immagine, il segnale di ChIPseq presenta zone di arricchimento in regioni specifiche del genoma mentre il segnale di input risulta essere aspecifico e più uniformemente distribuito. In tal modo, ripetuti cicli di denaturazione e di sintesi diretta dagli inneschi amplificano la regione compresa tra gli inneschi in modo esponenziale (2, 4, 8, 16, 32, 64, e così via). Il numero di molecole del DNA di partenza resta costante durante la PCR, le molecole amplificate tra i due primer (amplificati corti) aumentano in maniera esponenziale (2n, dove n indica il numero di cicli: 230=10°, dopo 30 cicli). Le molecole che iniziano da un primer e proseguono oltre l'altro primer (amplificati, quelle che excedono) aumentano in maniera aritmetica (60 dopo 30 cicli). à Per controllare se la PCR è avvenuta: dopo 20 o 30 cicli di PCR una sequenza di DNA che normalmente non è identificabile fra milioni di altre sequenze (per esempio, una sequenza nell'intero genoma umano) può essere identificata facilmente come una banda singola in un gel di agarosio. In commercio ora ci sono tante Taq polimerasi, dipende da che scopo si ha. Se si produce un frammento che poi serve per il clonaggio, c’è un fattore ulteriore: la Taq polimerasi non deve produrre errori nella polimerizzazione perché in questo caso interessa anche la sequenza che si sta producendo. RT PCR – PCR legata all’analisi dell’espressione genica È una variante della PCR usata per studiare l’espressione genica e consiste di due passaggi: partendo da una preparazione di mRNA si sintetizza, utilizzando la trascrittasi inversa (retrotrascrizione, Reverse Transcriptase RT), il cDNA. Quindi, si fa una copia a DNA dell’RNA. Successivamente, il cDNA viene usato come materiale di partenza (templato) per la solita PCR usando primer specifici per la sequenza che si vuole amplificare. Questa reazione si fa ancora con l’uso di un termociclatore, si aggiungono nucleotidi, primers e reverse transcriptase. à Amplificando un prodotto del gene espresso, passando dal messaggero, si ha un’idea di quanto è espresso. Queste tecniche, pur essendo molto efficienti, rapide e relativamente semplici, presentano alcuni problemi e limiti. Uno di questi è che, proprio a causa dell’alta efficienza di amplificazione che permette di partire da pochissimo materiale, sono facilmente soggette al rischio di contaminazione. Un’altra limitazione della PCR è che è essenzialmente qualitativa: permette di amplificare una regione di DNA se questa è presente nel campione in esame ma non è in grado di dare una misura della quantità di tale regione nel campione stesso. Si è scoperto che a un certo punto si arriva a avere talmente tanto prodotto che non è più linearmente dipendente dalla quantità di templato che era stato messoàè arrivato al plateau. Infatti, col procedere dei cicli, l’amplificazione aumenta esponenzialmente fino a un certo punto per poi rallentare e, infine, fermarsi per esaurimento dei precursori trifosfati e/o dei primer. Il livello massimo raggiunto non è, quindi, proporzionale al numero di molecole di partenza. Una volta si facevano delle PCR semi-quantitative: si facevano dei prelievi intermedi per vedere dove compariva. Successivamente, poiché si voleva spesso misurare proprio la rappresentatività delle varie sequenze, soprattutto negli studi di espressione genica per valutare i livelli degli mRNA, furono messe a punto delle varianti sperimentali per rendere la PCR quantitativa. Per esempio, il metodo chiamato real time PCR: sistema di monitoraggio che durante la PCR monitora le molecole di prodotto. Utilizza i dati ottenuti durante la fase esponenziale, in cui il prodotto di PCR è proporzionale allo stampo iniziale. Per seguire la sintesi dei prodotti di PCR in tempo reale ci sono 2 modi: 1. Uso di un intercalante fluorescente (SYBR) che lega in modo non specifico al solco minore del DNA a doppio filamento ma non lega il DNA a singolo filamento. Pertanto, l’intensità del segnale di fluorescenza è proporzionale alla quantità totale del DNA amplificato. 2. Uso di una sonda complementare alla sequenza target dell’amplificazione che consente l’emissione di un segnale fluorescente, la cui intensità è proporzionale al numero di molecole prodotte nella PCR. Nella sonda sono presenti un gruppo fluorescente (reporter) all’estremità 51 e un gruppo mascherante (quencher) all’estremità 31, in grado di assorbire i fotoni emessi dal reporter, bloccando così l’emissione del segnale fluorescente. Le sonde più usate di questo tipo sono le sonde TaqMan. Di conseguenza, il gruppo reporter e il quencher sono separati e viene rilevato un segnale di fluorescenza di intensità proporzionale al numero di sonde degradate e, di conseguenza, al numero di molecole di DNA neo-sintetizzate. Monitorando con lo spettrofotometro la fluorescenza della soluzione in cui avviene l’amplificazione, si ottiene una curva che descrive quantitativamente l’andamento dell’amplificazione. Durante i primi cicli la quantità di DNA è ancora così bassa da non poter essere rilevata mentre poi la curva inizia a salire con andamento esponenziale, raddoppiando a ogni ciclo. Dopo questa fase esponenziale l’aumento di DNA rallenta fino a fermarsi a un livello costante quando primer e/o nucleosidi trifosfati vengono esauriti. Una regione presente nella preparazione iniziale in più copie rispetto a altre genera un segnale rilevabile dopo pochi cicli di amplificazione mentre una regione presente in un numero minore di copie è rilevabile più tardivamente. Come si vede in figura, il confronto viene fatto prendendo in considerazione la prima parte delle curve, dove presentano un andamento esponenziale. A questo punto può essere identificata una linea soglia (threshold) che intersechi le curve di tutti i campioni nella fase esponenziale. Il ciclo di reazione in cui il segnale di fluorescenza del campione interseca la linea soglia è definito ciclo soglia o Ct (threshold cycle). à Il valore di Ct è inversamente proporzionale alla quantità di stampo iniziale. Nelle analisi di espressione genica, per comparare i livelli di un mRNA d’interesse tra campioni diversi, si effettua una quantificazione relativa. Si procede confrontando il Ct del target di interesse con quello di un controllo endogeno, corrispondente a un gene housekeeping (HK), ovvero espresso costitutivamente. Il valore di ΔCt così ottenuto è confrontato con quello del “calibratore”, ovvero del campione scelto come riferimento per l’analisi comparativa (per esempio, sano vs malato, non trattato vs trattato, campione T 0 in un esperimento di “time course”). La differenza tra i valori di ΔCt così ottenuti è definita ΔΔCt = ΔCt (campione) − ΔC T (calibratore) e ci consente di definire di quante volte la quantità del target d’interesse varia rispetto al controllo, secondo la formula 2-ΔΔCt. Si cerca sempre di avere un range tra i 18 e i 28 cicli e dei ΔCt piccoli. La real time PCR può essere utilizzata anche per effettuare la quantificazione assoluta di una sequenza target, ma in questo caso è necessario disporre di numerosi campioni della sequenza in esame e deve esserne nota la concentrazione per poter costruire una curva standard. Le quantità assolute della sequenza target nei campioni in esame possono quindi essere determinate per interpolazione della curva standard. La droplet digital PCR (ddPCR, PCR digitale basata su microgocce) è nata nel 1999 come un’evoluzione più raffinata e a alta precisione della PCR. Negli ultimi anni è stata notevolmente perfezionata e, a oggi, trova ampia applicazione nella ricerca scientifica così come nella diagnostica clinica. La novità e il vantaggio risiedono nella capacità di quantificare in modo assoluta le sequenze di acidi nucleici di interesse usando una tecnologia innovativa. La reazione a catena della polimerasi, infatti, avviene all’interno di microgoccioline che fungono da nanoreattori in cui vengono incapsulate molecole di acido nucleico. Il protocollo sperimentale della ddPCR prevede l’utilizzo di un intercalante fluorescente analogo chiamato EvaGreen oppure una sonda TaqMan. Il campione viene ripartito in circa 20 000 microgocce, dal volume di un nanolitro, a opera di un generatore di emulsione che sfrutta la microfluidica. Durante la produzione dell’emulsione, le molecole di acido nucleico sono ripartite in modo casuale nelle microgocce (ciascun campione è trasferito in una piastra da 96 pozzetti e, mediante l’impiego di un comune termociclatore, si procede alla reazione di PCR: ogni microgoccia è un nanoreattore al cui interno viene amplificata, se presente, la sequenza di interesse. Al termine della PCR, un lettore di fluorescenza analizza ogni singola goccia del campione, rileva e conta gli eventi negativi, cioè le microgocce al cui interno non è presente la sequenza ricercata e in cui, pertanto, non è avvenuta alcuna amplificazione, e gli eventi positivi, in cui il segnale fluorescente denota l’avvenuta amplificazione, nonché la presenza del DNA di interesse. LEZIONE 27 TECNICHE DI SEQUENZIAMENTO DEL DNA Grazie ai metodi “classici” fu possibile determinare la sequenza di singoli geni e in seguito i metodi furono automatizzati per permettere il sequenziamento di interi genomi. Ora, si parla dei metodi di sequenziamento di nuova generazione che sono usati per produrre sequenze di genomi individuali. A metà del 1970 furono escogitati due diversi metodi per sequenziare il DNA, cioè determinarne la sequenza delle basi. Sono stati sviluppati sequenziatori automatici che hanno permesso di pensare di sequenziare i genomi. I sequenziatori automatici si chiamano Sequenator: contengono 384 colonne di sequenziamento separate e sono capaci di sequenziare 600-800pb per colonna (si legge bene fino a circa 600). Queste macchine sono in grado di produrre più di 200kb di sequenza grezza di DNA in poche ore, ottenendo più o meno una Mb al giorno. Un gruppo di 100 macchine di questo tipo potrebbe generare l’equivalente di un genoma umano in circa 2 mesi (3 x 109bp). Sequenziamento shot gun Il batterio Haemophilus influenzae fu il primo organismo vivente il cui genoma fu sequenziato. Il metodo usato è detto shotgun (sequenziamento in un colpo solo). Questo batterio è compatto e piccolo: possiede 2 Mb di coppie di basi di DNA. Il genoma viene rotto in molti frammenti con una lunghezza media di 1kb che poi vengono clonati in un vettore di DNA plasmidico per produrre una libreria. Si hanno quindi delle colonie con DNA ricombinante e vennero tutte sequenziate con il Sequenator (sistema di automatizzazione del sequenziamento) usando il metodo del didesossi (metodo di frammentazione della catena, Sanger). Per assicurarsi che ogni nucleotide fosse presente nell’assemblaggio finale del genoma, vennero sequenziati 30000-40000 singoli cloni ricombinanti, producendo così 20 Mb di sequenza. Questo risultato viene definito una copertura 10x della sequenza genomicaàciascun nucleotide del genoma dovrebbe essere stato sequenziato dieci volte (ogni singola base è stata coperta 10 volte, molto affidabile per la ricostruzione). Le circa 30 mila sequenze derivate dai frammenti casuali di DNA genomico vennero direttamente introdotte nel computer, usando programmi diversi per assemblare le sequenze di DNA che si sovrappongono (si parla di assemblaggio del genoma). I frammenti casuali di DNA vennero assemblati in base alle sequenze comuni. L’unione di queste brevi sequenze di DNA portò a un insieme continuo, detto anche contig. Un cromosoma umano è composto da circa 150Mb e quindi le 600bp di DNA in una singola reazione coprono circa lo 0,0004% di un cromosoma. Perciò, per determinare la sequenza completa, il DNA di ciascuno dei cromosomi è stato frammentato. Solitamente, vengono preparati due o tre gruppi di dimensioni diverse (crescenti) e tali frammenti sono clonati a caso in plasmidi batterici per costruire librerieàvengono fatte librerie di dimensioni diverse, per esempio si può fare una libreria plasmidica da 1kb e una di BAC da 100 kb. La fedeltà è altissima ma una delle limitazioni maggiori nella produzione di vasti conting è la presenza di sequenze ripetute di DNA. Queste sequenze complicano il processo di assemblaggio perché frammenti casuali di DNA provenienti da regioni di un cromosoma, o di un genoma, scollegate tra loro potrebbero apparire sovrapponibili a causa della presenza della sequenza di DNA ripetitivo. Un metodo usato per superare questa difficoltà è quello del sequenziamento delle estremità accoppiate, una tecnica semplice che ha dato importanti risultati. La maggior parte delle sequenze ripetute ha una lunghezza inferiore alle 2 o 3 kb in modo tale da far sì che le sequenze “a estremità accoppiate”, generate dall’inserto di 5kb, siano sufficienti a riunire i contig interrotti dal DNA ripetitivo. Per ottenere dati su sequenze molto lunghe è necessario ottenere dati di sequenza “a estremità accoppiate” da frammenti di DNA molto grandi, lunghi almeno 100 kb. Ciò può essere fatto utilizzando i BAC (bacterial artificial chromosome). Si usano primer per ottenere sequenze di 600 bp a entrambe le estremità dell’inserto. Queste sequenze vengono poi allineate con vari contig che possono essere assegnati allo stesso assemblaggio, in virtù del fatto che hanno in comune sequenze dello stesso inserto. L’uso dei BAC spesso consente l’attribuzione di più contig allo stesso assemblaggio, lungo molte Mb, e di poter superare problemi legati alla presenza di elementi ripetuti. Il sequenziamento di brevi frammenti di DNA di 600 bp è molto rapido e efficiente. I sequenziatori automatici sono totalmente efficienti da superare la nostra capacità di riunire e annotare le informazioni di sequenza grezza. In altre parole, il fattore limitante nel determinare la sequenza completa del DNA di un genoma complesso, come il genoma umano, è analizzare i dati, più che ottenerli. Questa difficoltà diventa sempre più rilevante quanto più i metodi di sequenziamento diventano potenti e veloci. Tecniche di sequenziamento di nuova generazione A partire dal 2005, le piattaforme di sequenziamento di nuova generazione (Next Generation Sequencing, NGS) hanno prodotto un eccezionale aumento della capacità di sequenziamento parallelamente a una drastica riduzione dei costi. Tra le principali innovazioni introdotte nelle piattaforme NGS: - Non è richiesto il clonaggio dei frammenti di DNA da sequenziare. - Utilizzo di micro o nano-reattori, normalmente immobilizzati su un supporto solido, permette un elevatissimo livello di parallelizzazione. - La determinazione della sequenza non richiede il passaggio limitante della separazione elettroforetica, in quanto i nucleotidi sono identificati nel momento che vengono incorporati nella reazione di sequenziamento. à Le principali limitazioni delle tecnologie NGS di seconda generazione rispetto alla terza stanno proprio nella necessità di amplificazione clonale e la produzione di letture con lunghezza ridotta. Le moderne tecnologie di sequenziamento vengono distinte in due categorie a seconda che necessitano o meno di una fase di amplificazione clonale dei frammenti da sequenziare (la prima generazione è Sanger): • Seconda generazione: sì amplificazione clonale (la più usata in laboratorio). Generano un numero considerevole di letture o read (read=sequenza di una porzione di un frammento di RNA/DNA) con un’accuratezza elevata (tasso di errore <1%) ma con una lunghezza ridotta, solitamente compresa tra 50 e 250 nt per Illumina, fino a 700 nt per Roche 454, circa 100 nt per SOLID e fino a 400 per la Ion Proton. • Terza generazione: no amplificazione clonale. Producono delle read molto lunghe (>5kb) ma presentano un tasso di errore medio dal 15% di PacBio al 35% di ONT, però permettendo di coprire una regione più ampia è possibile assemblare superando gli errori. Un altro utilizzo della terza generazione è per definire gli splicing alternativi: se un gene è composto da esoni in comune e uno che cambia, se si hanno frammenti piccoli che sono sui singoli esoni non si riesce a definire bene l’espressione di un’isoforma rispetto ad un’altra. Invece, se si hanno frammenti lunghi che sequenziano tutto il messaggero si riesce a definire perfettamente. Amplificazione clonale - Può generare distorsioni a causa della possibilità che siano introdotti degli errori della fase di amplificazione (su 100 letture, 80-90% corrette, 10-15% no). - Può generare distorsioni in quanto alcuni frammenti possono essere preferenzialmente amplificati rispetto a altri in funzione delle loro caratteristiche intrinseche (succede quando si da un frammento poco complesso). - Non permette di rilevare specifiche modifiche del DNA Tecniche di sequenziamento di seconda generazione In generale, le tecnologie di NGS di seconda generazione comprendono 5 fasi: 1. Estrazione degli acidi nucleici (DNA o RNA). 2. Frammentazione degli acidi nucleici (chimica o enzimatica). Possibilmente in maniera uniforme lungo tutto il genoma e selezione dei frammenti omogenei. 3. Aggiunta di due diversi adattatori a sequenza nota alle estremità dei frammenti. 4. Amplificazione clonale. 5. Determinazione della sequenza. Roche 454 È stato il primo sistema NGS, è andato sul mercato nel 2007. È una tecnologia di pirosequenziamento perché sfrutta i gruppi pirofosfati che vengono liberati nel legame fosfodiesterico per leggere il nucleotide incorporato. Principio del sequenziamento per sintesi: - La DNA polimerasi catalizza l’incorporazione del deossinucleotide trifosfato al filamento di DNA se è complementare alla base del filamento stampo. Ogni elemento di incorporazione rilascia pirofosfato (Ppi) in quantità equimolare a quella del nucleotide incorporato. - In presenza di adenosina 5 fosfato (APS), l’ATP solforilasi converte il PPi a ATP che a sua volta catalizza la reazione di conversione di luciferina in ossiluciferina. - In seguito alla reazione è prodotta luce di intensità proporzionale alla quantità di ATP che viene rilevata e visualizzata come un picco in un pirogramma. - A ogni ciclo della reazione vengono aggiunti i 4 deossinucleotidi. La reazione è un’amplificazione clonale di un frammento a cui sono stati attaccati degli adattatori in modo che si abbia un’emissione registrabile, succede n volte per ogni singolo frammento e si sono inventati di far avvenire la PCR in un’emulsione di biglie. Preparazione della libreria di DNA e PCR in emulsione 1. Frammentazione del DNA per nebulizzazione (in realtà può succedere in n modi, basta ricordare che avviene la frammentazione) con produzione di frammenti di dimensione comprese tra 400-1000pb. 2. Alle estremità dei frammenti vengono aggiunti degli adattatori che funzionano sia da primer per l’amplificazione che per il sequenziamento. Uno dei due adattatori è coniugato con un tag di biotina al 51 e serve da ancora per fissare la libreria su biglie ricoperte di streptavidina. 3. La libreria di frammenti da ancorare alle biglie viene diluita, in modo che per ogni biglia ci sia un solo frammento di DNA (sonno biglie magnetiche a cui sono attaccati in modo random dei primer, quindi, attaccano frammenti per sequenze random). 4. Il DNA fissato alle biglie viene immerso in una soluzione di acqua e olio e amplificato con la tecnica della PCR in emulsione (emPCR). La reazione di PCR vera e propria avviene sulla superficie delle biglie all’interno di piccole bolle d’acqua presenti dell’emulsione. 5. Il DNA viene denaturato e le biglie che contengono copie identiche di DNA stampo a singolo filamento, vengono aggiunte ad una piastra di sequenziamento costituita da pozzetti multipli che conterranno solo una biglia. si appaino in modo specifico mentre le ultime 3 sono costituite da inosina in modo aspecifico. Dopo l’appaiamento della sonda e la reazione di ligazione del primo ottamero, tutti gli ottameri non appaiati vengono rimossi mediante lavaggi. Viene rilevata la fluorescenza e successivamente, utilizzando ioni argento, vengono staccati gli ultimi 3 nucleotidi della sonda ottamerica (immagine B 1,2,3). Lo stesso ciclo descritto pima viene ripetuto più volte per estendere la sequenza con un numero di cicli: 7. Dopo l’ultimo ciclo il filamento ottenuto dalle ligazioni successive viene rimosso per denaturazione e riparte una nuova serie di cicli con un nuovo primer che è sfasato di un nucleotide rispetto al precedente (n-1) (immagine B 6). Vengono poi eseguite altre 3 serie di cicli con i primer n-2, n-3 e n-4 in modo da avere una doppia lettura del colore associato a ciascuna posizione, calcolando che ciascun colore è associato a 4 differenti nucleotidi. Nell’immagine B7 si può vedere bene come l’utilizzo di primer progressivamente sfasati fino a n-4 consenta di interrogare due volte ciascuna delle basi dei dinucleotidi specifici aggiunti nei cicli di ligazione, compresa l’ultima base dell’adattatore. L’ultima base dell’adattatore (posizione=0) è necessaria perché permette, essendo nota, la deconvoluzione della sequenza dello stampo a partire dalla sequenza di colori. Nella sequenza a colori ciascun dinucleotide corrisponde a un colore. Per la deconvoluzione della sequenza di colori in sequenza di nucleotidi è sufficiente conoscere l’identità del primo nucleotide nel primo “colore”. Ion Torrent/Proton È abbastanza utilizzata perché è uno strumento meno caro. È una tecnologia molto simile a quella di roche 454 nel senso che sfrutta di nuovo un prodotto della reazione di sintesi per la rilevazione del nucleotide aggiunto, quindi non ha un sistema di fluorescenza ma bensì sfrutta il cambiamento del pH registrato come aumento della concentrazione di protoni che vengono rilasciati dal gruppo 31-OH coinvolto nella formazione del legame fosfodiesterico. La reazione di polimerizzazione avviene su un chip in grado di alloggiare milioni di biglie, sulla cui superficie i frammenti di DNA hanno subito un processo di amplificazione clonale in modo simile al sistema 454. A questo punto le biglie sono incorporate su una matrice solida, al di sotto della quale c’è un sistema elettronico collegato al chip che, durante la reazione di sequenziamento, è in grado di rilevare le variazioni di pH, le quali sono proporzionali al numero di nucleotidi incorporati sequenzialmente. Infatti, poiché i nucleotidi non sono marcati (non si distinguono l’uno dall’altro), questo sistema necessita di aggiungere in fasi successive i 4 diversi dNTP nella reazione di sequenziamento (=aggiungere un nucleotide alla volta), e di rilevare la base corretta dove registra una variazione di pH, che vuol dire che il nucleotide è stato incorporato. Per fare ciò, sul fondo di ciascun pozzetto è posizionato un apposito sensore in grado di misurare la variazione di concentrazione di ioni H+ e convertirla in un segnale elettrico, per cui si registra una scarica elettrica. Rispetto alle altre tecnologie questo tipo di sistema è molto più semplice dato che non necessita di un apparato ottico di rilevazione (che solitamente è complesso e costoso, quindi la macchina costa meno) per la rilevazione del segnale perché la lettura delle sequenze dipende solo dalla variazione della conducibilità elettrica di una soluzione. A seconda della profondità di sequenziamento desiderata, dell’applicazione scelta e del tipo di sequenziatore, si possono usare chip diversi che permettono di produrre in una sola corsa da un minimo di circa 500.000 reads fino a un massimo di 60-80 milioni con lunghezza fino a 600 nucleotidi. 70-80 milioni di reads è una buona informatività sul trascrittoma completo, cioè per un trascrittoma di una cellula informativo si ha bisogno di 70-80 milioni di frammenti letti per avere una rappresentatività completa e quantitativa della trascrizione globale di una cellula. SMRT di Pacific Bioscience (PacBio) La piattaforma PacBio costituisce il primo esempio di tecnica di sequenziamento del DNA a singola molecola (nel 2010) e è la più usata tra le tecniche di nuova generazione. L’acronimo più comune è SMRT (Single-Molecule Real-Time sequencing). È abbastanza cara essendo una tecnologia altamente sofisticata, tant’è che pochi istituti ce l’hanno. Questa tecnologia si avvale di sofisticati strumenti ottici, le guide d’onda monomodali (pozzetti di alluminio), che sono delle strutture in grado di permettere una propagazione guidata delle onde elettromagnetiche, cioè la propagazione dell’emissione del colore dopo l’eccitazione è ben direzionata, così da incrementare la sensibilità di lettura. Viene quindi rilevato il segnale di fluorescenza emesso dall’incorporazione di un singolo nucleotide nel corso dell’estensione del filamento di DNA e per tale motivo il sequenziamento avviene a livello di singola molecola senza amplificare il DNA di partenza mediante PCR. L’altro vantaggio è che dentro queste celle che accomodano una molecola di polimerizzazione c’è una polimerasi stabilizzata su un supporto fisico che polimerizza un filamento lungo (circolare di solito) incorporando nucleotidi, che sono fluoromarcati. Quindi, nel momento in cui la polimerasi incorpora quello corretto c’è un’emissione fluorescente. Essendo queste celle di alluminio, sono schermanti su qualsiasi altro tipo di emissione e convogliano bene il segnale e quindi il sensore è molto specifico e in grado di rilevarle. Le DNA polimerasi si legano sulle estremità del chip che consiste in un array di guide d’onda di 50 nm (SMRT cell). Ogni chip è in grado di generare circa 80.000 letture di buona qualità con lunghezza media di 10-15 kilobasi l’una. 80.000 letture vuol dire 80.000 reads però non sono reads di 400 bp. Il tasso di errore è alto, intorno al 19%, e gli errori sono costituiti da inserzioni e delezioni di basi causati da incorporazioni multiple troppo veloci che non vengono riconosciuti in maniera corretta dal sistema. È vero che tali errori sono distribuiti in maniera casuale perché una polimerasi sbaglia in modo random, ma non essendoci amplificazione della molecola, e quindi leggendo ogni singola molecola come buona, se si introduce un errore allora questo viene letto, e non viene poi azzerato da sistemi a valle di compensazione della presenza di quel nucleotide rispetto a un altro. Un tasso di errore del 19% non è basso ma vuol dire che quando si fa un esperimento di questo tipo si cerca qualcosa di diverso come, per esempio, la ricostruzione di un mRNA o di regioni complesse, ovvero qualcosa in cui la differenza di una singola base non interessa. Infatti, va ricordato che è sempre la domanda biologica che guida la strategia sperimentale che un biotecnologo adotta. Le molecole devono essere circolari per funzionare nel PacBio e, quindi, si usa un templato double strand a cui si legano degli adattatori che le rileggono circolari. La polimerasi fa circular rolling amplification, cioè fa tanti giri e quindi si ottengono dei reads lunghi che magari rappresentano più volte la molecola se è piccola. Però, se i reads sono molto lunghi questo consente solo di allungare il più possibile il read, non fa mai un circolo completo. Oxford Nanopore Tecnology (ONT) Questa tecnologia è più accessibile come costo. Usa un approccio molto innovativo in cui la lettura della sequenza nucleotidica viene effettuata misurando l’alterazione di corrente che si verifica quando un singolo filamento di DNA attraversa un lungo nanoporo proteico: sono pori in cui viene accolta la molecola mentre viene sintetizzata (di α-emolisina), all’interno dei quali viene misurata una variazione di corrente che è specifica per i 4 nucleotidi che vengono aggiunti. Quindi, quello che è in grado di rilevare in tempo reale è una variazione di corrente caratteristica alla quale il computer riassegna il nucleotide che è stato incorporato. È stato inoltre sviluppato un protocollo per il sequenziamento diretto dell’RNA: diretto vuol dire che non passa da una copia cDNA, perché qualsiasi sequenziamento non è sull’RNA stesso ma è su una copia creata in laboratorio di DNA complementare che fa da stampo. Quindi tale tecnologia è in grado di sequenziare DNA a singola molecola e non richiede che venga amplificato per PCR. Inoltre, permette di determinare direttamente le modifiche nucleotidiche durante il sequenziament. Oxford Nanopore Tecnology (ONT) ha il vantaggio che l’efficienza dei nanopori degrada più lentamente di quella di una polimerasi permettendo così di leggere sequenze molto lunghe in una singola reazione. Il problema rimane legato all’accuratezza delle basi identificate: la sequenza viene letta in maniera indiretta e completamente slegata da qualsiasi reazione biochimica. L’algoritmo per determinare le sequenze, adotta tecniche di apprendimento automatico basate sul machine learning: il software viene addestrato a riconoscere diversi segnali sulla base di analisi di sequenze note e a discriminare e riconoscere sequenze diverse. Infatti, è stimato che il tasso di errore di sequenziamento sia piuttosto alto, con una media del 20% e mostra una proporzione circa uguale di inserzioni, delezioni e sostituzioni di base. Anche in questa, quindi, il tasso di errore è piuttosto alto ma di nuovo dipende qual è la domanda che si ha per usare questa tecnologia. Per correggere tali errori è necessario avere una profondità di sequenziamento adeguata così da poter usare algoritmi di correzione che riducono l’errore al 3-5%. La lunghezza media delle letture è di 4-5 Kpb, quindi è più corta, ma per gli mRNA va bene perché comunque si ottengono reads di 4-5 Kb che si possono rimettere insieme. Non si ha un output di sequenziamento molto alto ma funziona abbastanza bene e è facilmente utilizzabile in laboratorio. LEZIONE 29 CRISPR-Cas9 Sono le così dette forbici genetiche, è uno strumento di editing del genoma e modulazione dell’espressione genica. Sono nate anche delle varianti essendo che oltre a fare genome editing si può anche regolare la trascrizione grazie a questo sistema. Tutto questo nacque dalla domanda: come si modifica il genoma? 1. Inserendo delle sequenze esogene (non presenti nel genoma dell’organismo), dunque, per esempio esprimendo un gene che non esiste nel genoma dell’organismo oppure fondere un gene endogeno con una parte esogena. 2. Modificando la sequenza nucleotidica dell’organismo stesso (inserzioni, delezioni e/o mutazioni). Le modificazioni possono essere stocastiche (introdotte sequenze di DNA esogene autosufficienti in qualsiasi posizione del genoma in modo casuale) o mirate (in modo mirato in un punto specifico del genoma). à La proteina cas ha: un’attività di riconoscimento e complementarietà tra una regione di RNA che lega se stessa e un’altra regione di RNA esogeno e un’attività endonucleasica. Adaptation: sequenze selezionate nel DNA esogeno vengono tagliate e inserite nel genoma del batterio tra due repeats del CRISPR array. Expression: l’intero CRISPR locus viene trascritto. Questo comprende sia lo spacer che i geni per le proteine Cas. Il CRISPR array viene processato in singoli CRISPR RNAs. Interference: il CRISPR RNA si associa a Cas, riconosce il DNA o RNA target in una sequenza complementare allo spacer definita Protospacer e lo taglia con l’attività nucleasica delle proteine Cas. Se una volta trascritto riconosce sé stesso, perché non si autodegrada? Perché non taglia anche le sequenze spacer integrate nel genoma? Gli spacer che vengono integrati sono selezionati dalla presenza di una sequenza essenziale adiacente al protospacer (Protospacer Adjacent Motifm PAM) per far si che la Cas9 tagli il target. PAM non è mai integrata nel genoma del batterio e quindi il locus nel genoma del batterio non viene mai riconosciuto e degradato da Cas9. Nel sistema Type II la sequenza PAM è sempre NGG (N=qualsiasi nucleotide). Come funziona il meccanismo CRISPR/Cas? Si deve formare un complesso enzimatico Cas9 + un RNA che deriva dal CRISPR e fa in modo che Cas9 riconosca la sequenza complementare all’RNA che si è legato a sé stesso e si leghi. Il CRISPR array viene trascritto e processato in tanti CRISPR RNA (crRNA). Lo stesso locus trascrive una molecola di RNA definita RNA tracer (tracrRNA), è un RNA di supporto. Il tracrRNA ha una regione complementare ai repeats e quindi si forma l’ibrido crRNA-TracrRNA grazie all’unione del crRNA al TracrRNA (il pezzo colorato è quello complementare al protospacer). Il crRNA-TracrRNA viene complessato con la Cas9 per formare un complesso, che riconosce per omologia dello spacer il DNA target, per tagliarlo. È possibile sfruttare questo sistema per tagliare una sequenza specifica nel genoma di una cellula? Sì, il crRNA e il tracrRNA vengono fusi tra loro in un’unica sequenza aggiungendo un loop artificiale per permettere il loro appaiamento. Questo RNA guida (gRNA) contiene sia la sequenza di riconoscimento del DNA target sia la struttura 3D per legarsi alla Cas9. Con questo sistema basta esprimere in qualsiasi cellula un gRNA con una sequenza di riconoscimento per la regione del genoma da tagliare insieme all’enzima Cas9. Il sito del genoma da tagliare deve contenere la sequenza PAM. Così si fa più in fretta perché invece che mettere le palindromiche si fa fare il loop mettendo dei nucleotidi ponte. Sfruttando la ricombinazione omologa o anche la NHEJ (non-homologous end-joining) è possibile editare il genoma di qualsiasi cellula. A differenza delle ZFN e TALEN, il sistema è molto rapido (non serve assemblare i moduli di proteine che legano i nucleotidi), preciso (20 nt di omologia) e efficiente. È possibile modificare virtualmente il genoma di qualsiasi cellula. Se lo si introduce in uno zigote si può direttamente modificare il genoma di tutto l’embrione. Si possono manipolare le ESC con alta efficienza e versatilità generando modelli genetici di qualsiasi tipo con estrema facilità. à Il sistema CRISP-Cas9 è composto da due componenti: una proteina endonucleasica chiamata Cas9 e una molecola di RNA chiamata RNA guida. Cas9 si localizza e lega il DNA in regioni specifiche chiamate PAM. Una volta legate le PAM, l’RNA guida srotola parte della doppia elica. Cas9 taglia il DNA e due nucleasi fanno il nick e causano una rottura a doppia elica (DSB). Le cellule cercano di riparare questa rottura (processo chiamato error-prone). Inavvertitamente vengono inserite delle mutazioni che silenziano il gene. Per questo Emmanuelle Charpentier e Jennifer Doudna vinsero il Nobel nel 2020, pubblicarono uno studio nel quale descrivevano il processo molecolare nei batteri e come può essere usato per fare RNA Programmable Genome editing. Ci sono sviluppi terapeutici basati su questo. Le applicazioni di CRISPR/Cas9 sono molte: editing, regolazione epigenetica, imaging e modifiche epigenetiche. Ciò che si sfrutta è la capacità dell’enzima Cas9 non soltanto di tagliare e creare nick all’interno del genoma dell’ospite ma anche di riconoscere una regione genomica grazie a una guida specifica. Se viene mutato l’enzima rendendolo nullo per quanto riguarda i domini nucleasici la Cas9, che viene così chiamata dCas9, mantiene la capacità di riconoscere una regione genomica grazie all’utilizzo dei gRNA. Quindi, oltre a essere usata per modificare le sequenze genomiche, può essere usato come strumento di regolazione genica non mutagenica per una certa sequenza. Introducendo mutazioni nei suoi due domini nucleasi, NNH e RuvC, la dCas9 risultante è carente di attività nucleasica e non è in grado di tagliare il DNA ma mantiene la capacità di legarsi specificamente al DNA quando guidato da uno sgRNA. La dCas9 (dead Cas9) è una CRISPR/Cas9 mutata nei suoi due domini nucleasici Oltre a usare la nucleasi Cas9 per modificare le sequenze genomiche, la tecnologia CRISPR-Cas9 può essere utilizzata come strumento di regolazione genica non mutagena specifico per una certa sequenza. Introducendo mutazioni nei suoi due domini nucleasi, HNH e RuvC, la dCas9 risultante è carente di attività nucleasica e non è in grado di tagliare il DNA ma mantiene la capacità di legarsi specificamente al DNA quando guidato da uno sgRNA. Interferenza della trascrizione mediata da dCas9 Associando dCas9 a uno sgRNA sequenza- specifica, il complesso dCas9-sgRNA può interferire con l’elongazione della trascrizione bloccando la RNA polimerasi. Può anche impedire l’inizio della trascrizione impedendo il legame di fattore di trascrizione. A differenza delle modificazioni genetiche permanenti indotte dalla nucleasi Cas9, l’interferenza genica ottenuta con CRIPRi è reversibile. Non è molto efficiente. Si sono dunque studiati dei metodi più efficienti di repressione della trascrizione mediata da dCas9. Per ottenere repressione trascrizionale le proteine KRAB che agiscono favorendo la deposizione di H3K9me3, o SID4X, che agiscono impedendo la acetilazione di H3K9, sono state fuse al C-term o N-term di dCas9. Limiti: il livello di repressione mediato da dCas9 o KRAB-dCas9 di geni endogeni dipende dal sito di targeting del sgRNA, suggerendo che la struttura della cromatina o la presenza di elementi regolatori potrebbe limitare il livello di repressione, limite comune a tutte le successive applicazioni Cas9. (È necessario avere un appaiamento molto specifico della Cas9 sul promotore del gene, a volte con un sgRNA singolo non si riesce). Attivazione della trascrizione mediata da dCas9 (CRISPRa) È più efficiente della repressione. Si attiva la trascrizione portando degli attivatori: i più funzionali sono VP64 e p65AD che sono degli attivatori di p65, fusi alla Cas9 funzionano abbastanza bene per attivare la trascrizione. Si è visto che con un solo attivatore non è così efficiente nell’attivare la trascrizione ma se a Cas9 viene fusa una sequenza che codifica per un peptide come SunTag array che è un peptide a cui si lega un coattivatore di VP64 si portano tanti VP64 (la catena peptidica recluta multiple copie di VP64 su una singola dCas9). Nella cellula quante cose bisogna trasfettare? Bisogna mettere la Cas9 chimeriche che codifica per questo peptide, l’sgRNA che può essere sullo stesso plasmide o su plasmidi diversi e poi bisogna cotrasfettare l’attivatore VP64 con un altro plasmide. (ha detto che può esserci una domanda più così di elaborazione del concetto). È stato anche dimostrato che l’ingegnerizzazione dell’sgRNA migliora l’efficienza dell’attivazione genica mediata da dCas9. L’utilizzo di aptameri di RNA MS2 incorporati negli sgRNA che reclutano la proteina di riconoscimento MCP fusa con VP64.questo sistema ha consentito di targettare VP64 senza la necessità di modificare la Cas9. Regolazione epigenetica mediata da CRISPR (non è efficientissima) Fondere un corepressore come LSD1 demetila specificamente la lisina 4 dell’istone H3 (la si trova nei promotori dei geni attivi). Quindi, se si porta su quei promotori l’istone demetilasi (LSD1) demetila la k4 quindi spegne la trascrizione. Se si porta invece l’acetiltransferasi p300 questa acetila le code istoniche e attiva la trascrizione. Uno dei principali limiti della CRISPR Cas9 è la specificità, siccome gli sgRNA riconoscono 20 nucleotidi è possibile (altamente probabile) che vadano in regioni del DNA dove non si vuole vadano. C’è molta ricerca per cercare di rendere il più possibile specifico il taglio della Cas9. Uno dei modi è quello di utilizzare un nickase mutato in D10 Per ottenere un valore di espressione osmotica della soluzione tampone capace di prevenire lo shock osmotico degli organuli e la loro lisi, cioè un valore di pressione osmotica analoga a quella intracellulare, frequentemente si impiega uno zucchero come il saccarosio a concentrazione 0,25 M. Nel caso il saccarosio interferisca con i saggi enzimatici, si può impiegare il mannitolo. Questi zuccheri sono generalmente anche stabilizzanti delle strutture proteiche. Oltre allo zucchero, che quindi mantiene la pressione osmotica delle cellule e degli organelli, si usano anche sali come NaCl o KCl. Zuccheri e sali vengono usati per ottenere osmolarità simile a quella nativa. Però, i sali possono essere anche usati per rompere interazioni forti e estrarre proteine. Infatti, nel caso degli istoni che interagiscono molto fortemente con l’acido nucleico, e che quindi sono difficili da estrarre, si usa l’acido o sale forte (molto concentrato, NaCl 2 M). Gli ioni cloro si sostituiranno come carica ai gruppi fosfato del DNA e faranno in modo di estrarre gli istoni dal DNA e portarli nella soluzione salina. Nelle soluzioni tampone vengono disciolti anche altri composti. Se si vogliono purificare delle proteine citosoliche è bene aggiungere composti tiolitici come il 2-mercaptoetanolo o il ditiotreitolo, che sono fondamentali per mantenere ridotti i gruppi sulfidrilici delle proteine e impedire la formazione di legami disolfuro impropri. Se, invece, la proteina serve per fare dei saggi enzimatici allora non si possono usare questi due composti tiolici perché rompendo i gruppi solfidrilici si rischia che l’attività enzimatica dell’enzima non si abbia più. Gli inibitori delle proteasi, invece, servono a impedire o ritardare la degradazione delle proteine dovuta alla liberazione di protesi intracellulari. In particolare, si usano molecole specifiche per diverse classi di proteasi: il PMSF (fenilmetilsulfonil fluoruro, un inibitore delle proteasi a serina), la leupeptina (un tripeptide modificato che inibisce in modo reversibile alcune proteasi a serina e a cisteina), la pepstatina A (blocca le proteasi acide quali pepsina, renina e chimosina) e l'EDTA (l'acido etilendiamminotetracetico, un chelante dei metalli che indirettamente causa l'inibizione delle metalloproteasi). Questi sono molecole chelanti, molecole che sottraggono ioni bivalenti come calcio e magnesio. Molte proteine enzimatiche, tra cui le proteasi, funzionano con questi ioni bivalenti: nel momento in cui si mette in soluzione EDTA o EGTA, che sottraggono ioni calcio e magnesio, le proteasi non funzionano più. Spesso infatti si inseriscono sia gli inibitori delle proteasi che i chelanti nelle soluzioni di estrazioni delle proteine. I detergenti sono delle molecole antipatiche, cioè hanno una testa idrofilica e una coda idrofobica. Questo permette loro di dis-rompere molte molecole. Per esempio, le proteine vengono disrotte, nel caso dell’SDS, dalla lunga coda idrofobica dell’SDS che interagisce nel cuore idrofobico delle proteine e la testa idrofilica interagisce con l’esterno della proteine e questo regola lo srotolamento della proteine. I detergenti, inoltre, rompono la membrana lipidica bipolare delle cellule. Sono importanti anche nella rottura delle membrane, non solo quindi sale e zucchero. Questi detergenti rompono sia le membrane cellulari che degli organelli. Di detergenti ce ne sono tanti, la principale caratteristica è la carica: se sono ionici, non ionici, polari, apolari… un detergente non ionico, per esempio, sarà magari abbastanza forte da poter rompere la membrana citoplasmatico delle cellule ma non farà dei “buchi enormi” mentre un detergente ionico come l’SDS è molto forte e rompe tutto. La scelta de detergente, quindi, dipende ancora una volta da cosa si vuole visualizzare nell’esperimento. Frazionamento subcellulare Se la proteina di interesse non si trova nel citoplasma ma ha una particolare localizzazione cellulare, è necessario un frazionamento subcellulare per isolare nuclei, mitocondri, lisosomi, perossisomi, microsomi, reticolo endoplasmatico o ribosomi presenti in un omogenato cellulare. Poiché questi organelli hanno dimensioni, densità e forme diverse, sarà possibile separarle in base alla loro velocità di sedimentazione. La centrifugazione è una tecnica separativa basata sulle differenze di densità e dimensioni tra le particelle componenti una miscela e può essere usata come valido metodo di separazione. Le proprietà chimico-fisiche delle proteine che vengono sfruttate nelle tecniche di frazionamento sono: la solubilità, la stabilità al calore e al pH, la carica elettrostatica, l’idrofobicità, le dimensioni e la capacità di legare in modo specifico ligandi o altre macromolecole. à Le tecniche di centrifugazione preparativa comprendono sia la centrifugazione differenziale che la centrifugazione in gradiente di densità. Centrifugazioni differenziali Supponendo di essere interessati a una proteina X che sta nel nucleo, una proteina Y che sta nel mitocondrio, e una proteina Z nel lisosoma. A partire dalle cellule dello stesso omogenato di fegato in 250 mmol di saccarosio, si possono ottenere X, Y e Z facendo delle centrifugazioni successive che permettono di isolare i vari organelli e componenti. Quindi, per esempio, si ha l’omogenato di fegato nel buffer di estrazione, lo si centrifuga a 1000 g e a questa centrifuga nel pellet si troveranno i nuclei per esempio mentre tutto il resto (mitocondri, lisosomi, ribosomi, e frazione citoplasmatica) rimarrà nel sopranatante. Questo sopranatante può essere ricentrifugato a 3300 g (centrifuga forte) e lavando e ri-centrifugando si possono ottenere i mitocondri. Quindi, per ogni centrifuga si ha un pellet e un sopranatante. Per esempio, i lisosomi che sono più leggeri rimangono sul sopranatante ma con una centrifugazione ancora più forte a 16.300 g nel pellet si possono estrarre i lisosomi. Poi nel sopranatante si trovano i microsomi e con una centrifuga finale a 100.000 g si trovano i microsomi. à Cambiando le caratteristiche del buffer per riscontrare le caratteristiche di tale organello e tale proteina, e cambiando di volta in volta la velocità di centrifugazione, si identificano via via gli organelli. Si tratta di centrifugazioni differenziali che permettono, a seconda delle proprietà chimico-fisiche di tale organello e quindi delle proteine di tale organello, di poter isolare un certo organello perché andrà nel pellet e gli altri nel sopranatante, il quale potrà essere usato ancora una volta per fare centrifugazioni differenziali e quindi precipitare gli altri organelli sul fondo della provetta. Questo è un esempio di centrifugazione differenziale. Centrifugazioni in gradiente di densità Ci possono essere anche centrifugazioni in gradiente di densità dove si usa normalmente un gradiente di saccarosio o di cloruro di cesio, e in questo caso la densità degli organelli farà in modo che tale organello si sedimenterà a un certo livello del gradiente di saccarosio o di cloruro di cesio, che rispecchia la sua densità, e quindi poi queste frazioni potranno essere isolate rispecchiando i diversi livelli di densità del saccarosio o del cloruro di cesio, e a seconda dei livelli di densità di questi verranno isolati compartimenti e proteine. Ritornando al concetto di centrifugazioni differenziali, è settato un protocollo di frazionamento della cromatina dove si è voluto distinguere le proteine citoplasmatiche dalle proteine nucleoplasmatiche (quindi proteine solubili all’interno del nucleo), dalle proteine attaccate alla cromatina (cioè quelle che interagiscono strettamente con la cromatina, che possono essere istoni, proteine eterocromatiche) e arrivare alla lamina, che è un po’ il citoscheletro del nucleo, e quindi è la componente più insolubile. Com’è stato settato il protocollo? Per estrarre il citosol è stato usato un buffer con zucchero, 150 mmol di NaCl, il Triton che è un detergente non ionico e da questa estrazione mild è stata ottenuta, tramite una centrifugazione non particolarmente importante, la sedimentazione di un pellet e nel sopranatante le proteine citoplasmatiche. Il pellet è stato poi sottoposto a un’estrazione sempre in condizioni saline abbastanza mild che prevedesse l’utilizzo della DNAsi. Quindi, per rendere più solubili delle proteine attaccate al DNA ma magari attaccate a un DNA o a una cromatina aperta, la DNAsi che “smangiucchia” il DNA ha favorito il fatto che queste proteine nucleoplasmatiche fossero portate in soluzione. Quindi con la centrifugazione dopo questa estrazione si è ottenuto nel sopranatante il citoplasma e nucleoplasma e nel pellet la cromatina. La cromatina è stata poi trattata per estrarre le proteine più avidamente associate a essa tramite l’utilizzo di 2 M NaCl e fondamentalmente questo trattamento con questo sale iper concentrato ha favorito il distacco delle proteine istoniche per esempio e quindi con la centrifugazione, che questa volta è importante essendo sui 10.000 g, si ottiene nel sopranatante le proteine più strettamente associate alla cromatina e nel pellet la lamina. Per rendere solubile la lamina si utilizza un 8 M di urea, che è fortissimo e è l’unico buffer che rende solubile la lamina. Tutte queste componenti proteiche poi, per vedere che effettivamente il protocollo avesse funzionato bene, sono state corse con elettroforesi e visualizzate per Western Blot. I controlli del frazionamento sono i seguenti: - L’α tubulina, che è una proteina solo citoplasmatica perché fa parte del citoscheletro, è presente solo nel citoplasma e non nel nucleoplasma, nella cromatina e nella frazione della lamina. - L’istone H3 non è presente nel citoplasma ma è presente un po’ nel nucleoplasma, molto nell’S3 quindi nella cromatina, e non c’è nella componente del nucleoscheletro. - La lamina che può essere sia B che A/C (B è più interna, A/C è più esterna e in contatto con la membrana del nucleo) è presente solo nell’S4. Questi sono i controlli, poi da questo ci si può chiedere: ma le proteine che si chiamano polycomb (che sono delle cromatine modifier) e che fanno repressione trascrizionale, dove sono? Molte di queste sono associate al DNA o con la componente della lamina. Questo protocollo ha portato a comprendere che le proteine polycomb interagissero con il nucleoscheletro e da questo è nata l’evidenza che ha portato a una storia che è stata pubblicata a livello internazionale. La scoperta è stata che le proteine polycomb fossero delle proteine in grado di interagire con le lamine, prima di quel momento invece si pensava che le polycomb interagissero solo a livello della cromatina e, invece, tramite questo procedimento si è stati in grado di identificare che polycomb si localizza anche dove ci sono le lamine e interagisce con le lamine anche per regolare processi come il differenziamento cellulare. Si tratta di tecniche che permettono di trovare delle indicazioni e poi da lì, aggiungendo altri esperimenti, comprendere perché una proteina sta lì. Tecniche immunochimiche Una volta estratte le proteine, quali applicazioni si possono impiegare? Cosa si fa con le proteine estratte? Anticorpi Gli anticorpi vengono utilizzati per il riconoscimento specifico di una proteina. Sono fondamentali per le tecniche di proteomica. L’anticorpo ha 2 caratteristiche che sono molto utili: - ha il frammento Fab che è specifico per un certo epitopo, dove per epitopo non si intende la proteina intera ma la parte di una proteina. Per esempio, il Gene EZH1 ha delle isoforme trascrizionali e ha un’isoforma full-length con un terminal domain con una funzione enzimatica e poi da anche origine a una proteina più corta che non ha il l’enzimatic domain (dominio C terminale). Quindi, quando • Solitamente si usa un classico SDS- PAGE su gel discontinuo ma si evita di colorare le proteine con blu di Coomassie o altri metodi. • Dopo la corsa, si trasferiscono le bande proteiche dal gel a una membrana di nitrocellulosa o PVDF (polivinildenfluoruro). • Il trasferimento si basa ancora una volta sulle cariche, e qui si creano i cosiddetti sandwich. Il gel viene messo a contatto con la membrana in un sandwich fra due strati di spugna e carta da filtro (spugna, carta, filtro, gel, carta, spugna). • Il sandwich viene poi posto in un piccolo apparato di trasferimento, dove c’è una differenza di potenziale, che consente la migrazione delle proteine per elettroforesi ma con il campo elettrico indirizzato ortogonalmente al sandwich (electroblotting) • la membrana viene prelevata dal sandwich. Da questo ne deriva un buon trasferimento o meno: il gel è carico negativamente e quindi il trasferimento dovrà favorire, tramite una differenza di potenziale, il passaggio delle cariche negative delle proteine dal gel alla membrana quindi il gel deve essere rivolto verso il polo negativo e la membrana verso il polo positivo. Se erroneamente si effettua al contrario, le proteine non migreranno dal gel alla membrana ma dal gel al transfer buffer e quindi sulla membrana non si otterrà nulla. Inoltre, si può controllare che il trasferimento sia stato efficiente colorando il gel con blue di Coomassie o Ponceau S (un colorante rosso per le proteine) e verificando che sia privo di bande proteiche • incubata prima con una soluzione di blocco per saturare la membrana • e, poi, con un anticorpo diretto contro la proteina di interesse (anticorpo primario), a cui si lega specificamente, in un opportuno tampone di binding. • L’anticorpo non legato viene rimosso mediante diversi lavaggi con il tampone di binding. • L’anticorpo legato, o meglio il complesso antigene-anticorpo, presente sul filtro viene rivelato utilizzando un anticorpo secondario, diretto contro l’anticorpo primario. • L’anticorpo secondario viene scelto a seconda della specie animale che ha fornito l’anticorpo primario. • L’anticorpo secondario viene scelto anche a seconda del metodo di rivelazione che si intende utilizzare. • Infatti, queste molecole sono fornite in forma modificata, coniugate covalentemente alla biotina o a un enzima come la fosfatasi alcalina o la perossidasi di rafano. • Alla fine dell’incubazione, quando si è formato il complesso Ag-Ab primario-Ab secondario, la membrana viene incubata con substrati degli enzimi che vengono trasformati in un prodotto insolubile (che quindi rimane in prossimità del complesso) e colorato o luminescente. • Poiché una singola molecola di enzima (legato all’anticorpo secondario) reagisce con più molecole di substrato e produce molte molecole di prodotto colorato, l’enzima amplifica il segnale. • L’ultima fase del Western blot è, quindi, la rilevazione delle bande con un sistema ottico ed, eventualmente, la loro misura densitometrica per ottenere una stima semiquantitativa dell’abbondanza relativa delle bande. • Il sistema oggi più comunemente impiegato è quello della chemiluminescenza (Enhanced ChemiLuminescence, ECL) che sfrutta sistemi in cui il prodotto luminescente è visualizzato direttamente con un sistema combinato di cattura e analisi dell’immagine mediante una macchina fotografica digitale. à Il Western Blot, quindi, è una tecnica quantitativa che permette di definire tramite l’utilizzo anche di questi taranti come l’H3 o altre proteine housekeeping le differenze tra le varie condizione. ELISA (Enzyme-Linked Immunosorbent Assay) È usata per dosare qualsiasi composto immunogenico per il quale si disponga di un anticorpo specifico. Può essere usata in modo qualitativa (per esempio per rilevare la presenza di un allergene in un siero) o quantitativa (per esempio per misurare la quantità di una citochina in un terreno di coltura cellulare). Il principio dell’ELISA è immobilizzare l’antigene su un supporto solido (generalmente il fondo di un pozzetto in una micropiastra). Il legame dell’antigene al supporto può essere diretto, per adsorbimento mediato da cariche o da ligandi posti sulla superficie substrato (ELISA indiretto) oppure mediato da un anticorpo contro lo stesso antigene (ELISA a sandwich). Il vantaggio del sistema a sandwich è che, poiché solo l’antigene è immobilizzato dal legame con gli anticorpi specifici, è possibile rimuovere mediante lavaggi successivi tutti i contaminanti non riconosciuti o riconosciuti solo debolmente dall’anticorpo, un’operazione che rende la tecnica molto specifica e precisa. Una volta immobilizzato, l’antigene può essere misurato utilizzando un anticorpo legato a un enzima che fornisce un prodotto evidenziabile colorimetricamente. Oppure, analogamente a quanto descritto per il Western blot, consentendo il riconoscimento con un anticorpo primario, a sua volta riconosciuto da un anticorpo secondario legato a un enzima che fornisce un prodotto evidenziabile colorimetricamente. La risposta colorimetrica del saggio può essere misurata e dare indici quantitativi es della presenza della citochina nel serio. Se, per esempio, si hanno due condizioni e si vuole capire quanto l’antigene x sia presente all’interno: 1. si fanno i frazionamenti e l’estratto proteico che si carica sul pozzetto, 2. si lava via l’eccesso e l’aspecifico nel caso in cui si abbia un fondo con anticorpi specifici, 3. poi si mette l’anticorpo primario per rivelare la presenza degli antigeni, 4. si lava via, 5. si mette l’anticorpo secondario che normalmente ha un enzima coniugato che fa un’azione colorimetrica, 6. si lava via, 7. si mette il substrato della reazione colorimetrica e lo si sviluppa, cioè lo si rileva. Immunofluorescenza È una tecnica di microscopia che non nasce come una tecnica quantitativa, è prevalentemente qualitativa ma se supportata da altri dati può avere una valenza quantitativa. Consente di comprendere la localizzazione di una proteina all’interno della struttura cellulare; permette anche di comprendere l’abbondanza di una proteina nelle cellule all’interno di una popolazione cellulare. Funziona attraverso il riconoscimento di un antigene, quindi della proteina di interesse da parte di un anticorpo primario che può essere coniugato con un fluoroforo che può essere visualizzato al microscopio oppure l’anticorpo primario può essere riconosciuto da un anticorpo secondario legato ad un fluoroforo. Tutte le tecniche di immunochimica sono praticamente simili tra loro. Quando si fa immunofluorescenza si permeabilizza per fare entrare l’anticorpo primario che riconosce la proteina di interesse, si lava, arriva l’anticorpo secondario legato al fluoroforo, si lava nuovamente e poi si visualizza il fluoroforo, riuscendo quindi a capire se ad esempio la proteina è traslocata. Immunoprecipitazioni L’immunoprecipitazione (IP) è una tecnica che consente di precipitare un antigene proteico in soluzione utilizzando un anticorpo specifico per quell’antigene. Viene usata per isolare e concentrare una proteina presente in una miscela contenente centinaia o migliaia di altre specie proteiche (di solito un estratto cellulare o un campione di sangue). Si estrae la proteina di interesse, si mette l’anticorpo specifico e poi l’Fc si può far legare da delle beads magnetiche utilizzate per isolare la proteina di interesse. Oggi si predilige l’uso estensivo di accoppiare il complesso Ag-Ab a un substrato solido facile da recuperare che di solito è la proteina A o G immobilizzata su agarosio o sferette magnetiche. In alternativa si usa resina che, con i complessi legati, viene recuperata nel precipitato ottenuto mediante una breve centrifugazione, lavata ripetutamente per eliminare contaminanti e, infine, il complesso viene dissociato e può essere analizzato in western blot o purificato per recuperare la proteina antigene di interesse. Esistono delle beads magnetiche che, come tali, poi possono essere utilizzate per isolare delle proteine di interesse coniugate con anticorpi che riconoscono la porzione Fc degli anticorpi primari. Una volta che si ha il lisato proteico come si fa a isolare le proteine di interesse? Si mette l’anticorpo che riconosce la proteina di interesse e si utilizza la beads magnetica che riconoscendo l’Fc dell’anticorpo che riconosce la proteina di interesse permette di isolare tramite l’applicazione di un campo magnetico le proteine di interesse attaccate all’anticorpo specifico che a sua volta è attaccato alla beads magnetica. L’utilizzo delle beads magnetiche ha moltissimi impieghi, è molto facile da usare. Interazioni tra proteine Quando si parla di proteine si può essere interessati sia alla localizzazione che alla quantità che agli interattori di quella proteina perché solitamente le proteine non funzionano sole ma lavorano in complessi. Le interazioni tra proteine si studiano in vari modi: • Metodi ottici - FRET. Fa uso delle proprietà di una proteina fluorescente verde (GFP, Green Fluorescent Protein). La GFP è una proteina di 27 kDa espressa nella medusa Aequorea victoria che, se colpita da una radiazione di una certa lunghezza d’onda, è in grado di riemettere luce di colore verde acceso. La GFP è molto utilizzata per “etichettare” specifiche proteine mediante tecnologie classiche di DNA ricombinante, e tale “etichettatura” è utile per analizzare la localizzazione di una proteina nella cellula. Il gene codificante la proteina GFP wild type può anche essere mutagenizzato, così da produrre forme modificate di GFP in grado di assorbire radiazioni diverse da quella originaria e di riemettere colorazioni diverse dal verde. Una metodologia che permette di analizzare l’interazione tra due proteine (chiamata trasferimento di energia di risonanza di fluorescenza o FRET) prevede la marcatura delle due proteine in esame con un fluorocromo in grado di emettere luce di diverso colore. Se cromi diversi si trovano molto