







































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Appunti in slide di bioinformatica
Tipologia: Schemi e mappe concettuali
1 / 47
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!








































Sempre costituiti da molecole lineari di DNA: i cromosomi. Ogni cromosoma umano contiene, in media, una molecola di DNA lunga circa 5 cm: nel nucleo (circa 6 micron di diametro) di una cellula aploide è contenuto circa 1 m di DNA! Negli Eucarioti il materiale genetico assume la forma di un complesso nucleo-proteico fortemente compattato a cui si dà il nome di cromatina. Esiste una sorta di organizzazione gerarchica del grado di compattamento della cromatina. Il nucleosoma costituisce il grado più semplice di compattamento.
All’interno della cellula il DNA è associato con proteine a formare il/i cromosoma/i. Nei cromosomi, l’associazione del DNA con proteine specifiche lo protegge e lo rende più stabile I cromosomi eucariotici = cromatina (50% DNA: 50% proteine) Proteine istoniche e non-istoniche regolano tutte le reazioni che coinvolgono il DNA. Il CROMOSOMA consente al DNA della cellula eucariotica di essere: Condensato all’interno del nucleo Protetto da eventuali danni; Trasmesso facilmente alle cellule figlie; Correttamente espresso; Facilmente ricombinato con i cromosomi parentali Ma ne blocca il metabolismo
Organizzazione genomica Specie Molecole di DNA Dimensioni (Mb) N° di geni Escherichia coli K 1 molecola circolare 4,639 4397 Vibrio cholerae 2 molecole circolari:
Hanno dimensioni ridotte, in genere inferiori a 5 Mb; Genoma contenuto in unʼunica molecola, generalmente circolare (nucleoide). In Streptomyces e Borrelia cromosomi lineari; La molecola (in E.coli, 1.6 mm) è compattata allʼinterno della cell. batterica (1.0 x 2.0 m) grazie a superavvolgimenti positivi o negativi e lʼaiuto di almeno 4 proteine specifiche, fra cui le HU (60.000) che costituiscono un tetramero attorno al quale si avvolgono 60 bp di DNA. I tetrameri sono spaziati omogeneamente o ristretti al core del nucleoide? Il DNA batterico (nucleoide) è legato a proteine che ne impediscono il rilassamento: 80% DNA, 20% proteine;
formare 40-50 anse (~100 kb) che si dipartono da un core centrale proteico DNA plasmidico: contiene geni specifici (integrone e geni per la resistenza agli antibiotici) ma non indispensabili.
La complessità è correlabile alla compattezza dei genomi Genomi compatti economicizzano il DNA ravvicinando le sequenze funzionali Genomi poco compatti presentano grandi spazi non utilizzati fra le unità codificanti
Il cromosoma umano 21 è mostrato in grigio; una porzione del cromosoma 16 di topo è mostrato in blu; una porzione del cromosoma 17 in arancio e del cromosoma 10 in verde. I geni che codificano per proteine sono mostrati con dei punti di tre colori diversi corrispondenti ai colori dei tre cromosomi di topo. Le coppie di geni marcatori sono unite da una linea. Gli organismi PIU’ complessi hanno una MINORE densità genica. ALLA DIMINUZIONE DELLA DENSITÀ GENICA CONTRIBUISCONO: L’aumento della dimensione dei geni (lunghezza genica e n° di introni e lunghezza delle sequenze regolative) L’aumento delle sequenze intergeniche Nei genomi complessi vi sono componenti distinti: DNA altamente ripetitivo o R (frequenza di ripetizione) >100, o Non porta quasi nessuna informazione, possiede bassa complessità DNA moderatamente ripetitivo o 10
Se l’intero DNA viene digerito con una nucleasi di restrizione che non taglia a livello delle sequenze ripetute, i tratti delle ripetizioni prodotte avranno una composizione complessiva di basi molto diversa dal rimanente DNA DNA ripetuto in tandem (poco rappresentato nei procarioti) DNA centromerico ( o DNA satellite ) , ripetizioni di seq. da 5 a 200 bp Mini-satelliti (es.: DNA telomerico) ripetizioni di seq < 25 bp Micro-satelliti : ripetizioni anche di singole o di coppie di basi DNA ripetuto disperso nel genoma Trasposoni a DNA (elementi mobili) Retrotrasposoni (elementi mobili derivati da retrovirus) Buona parte del DNA dei genomi più grandi è non-codificante I genomi complessi hanno da 10x a 30x più DNA di quello che sarebbe necessario per codificare tutti gli RNA o le proteine nell’organsimo. Il DNA non-codificante include: o Introni nei geni o Gli elementi regolatori dei geni o Le copie multiple dei geni, tra cui gli pseudogeni o Le sequenze intergeniche o Il DNA ripetitivo
I genomi umani hanno circa 3 miliardi di base pairs di DNA Circa il 3% di esse codifica per proteine Circa il 40-50% è ripetitivo, costituito da (retro)transposizione Qual è la funzione del restante 50%?
Mutazioni puntiformi o geniche : alterazione di un solo punto del DNA (mismatch), dunque in un solo gene Mutazioni cromosomiche : alterazioni grossolane della struttura di un cromosoma Mutazioni genomiche : alterazioni del numero di cromosomi presenti in un genoma
Chimica: Transizioni (es.: da una Pur/Pyr ad un’altra Pur/Pyr) Trasversioni (es.: da una Pur ad una Pyr, o viceversa) Funzionale (effetto sulla proteina codificata): Sostituzioni : o Silenti (stesso aa) o Missenso (diverso aa) o Non senso (+ stop) o Readthrough (-stop) Delezioni Inserzioni Con la replicazione una mutazione puntiforme può essere fissata definitivamente nel genoma.
Reazioni chimiche responsabili di mutazioni :
Gli pseudogeni sono sequenze di DNA molto simili ai geni funzionali ma privi delle sequenze necessarie per la loro espressione. Pseudogeni duplicati o non processati: derivano da eventi di duplicazione genica seguiti da mutazioni. Pseudogeni processati: prodotti in seguito a processi di trascrizione inversa e mutazione. Negli eucarioti da un Gene possono essere prodotte più proteine diverse ( splicing alternativo )
Il codice è altamente degenerato e più codoni (sinonimi) specificano per un singolo amminoacido Generalmente, i codoni sinonimi presentano identiche basi nelle prime due posizioni. È un meccanismo che permette di ridurre al minimo gli errori di lettura e di minimizzare le mutazioni : Codoni con una transizione nella 3a^ posizione codificano lo stesso aa (anche le trasversioni, nella metà dei casi, non cambieranno l’aa); Codoni con Pyr in 2a^ posizione, spesso, codificano per aa idrofobici; Codoni con Pur in 2a^ posizione, spesso producono aa polari; Quando le prime due posizioni di un codone sono occupate da C o G qualunque sia la base in 3a^ posizione verrà sempre codificato lo stesso aa (prolina, alanina, arginina o glicina). Il codice è degenerato : la maggior parte degli aminoacidi sono codificati da più di un codone, ad eccezione della metionina e del triptofano.
Nei mitocondri: UGA codifica per Trp invece di essere uno stop (anche UGA e UGG formano una coppia di codoni); la Met interna è specificata sia da AUG che AUA. I codoni di stop sono 4: oltre UAA e UAG anche AGA e AGG. Ma quale codone corrisponde ad un certo amminoacido? Un primo indizio lo ottenne Marshall Nirenberg il quale dimostrò che l’omopolinucleotide poli(U) dirigeva la sintesi della polifenilalanina. Un polinucleotide omogeneo (A)n può codificare per un solo polipeptide costituito da un solo aminoacido; Una ripetizione di una sequenza di-nucleotidica (AB)n produce un prodotto di aminoacidi alternati; Una ripetizione di un trimero (ABC)n porta alla produzione simultanea di tre diversi polipeptidi omogenei. Questi risultati permisero di definire che il codice genetico è formato da triplette e non ha punteggiatura. Crick e Sydney Brenner arrivarono contemporaneamente, ad ottenere le stesse risposte mediante esperimenti genetici con il batteriofago. Inserzioni o delezioni di una o due paia basi nel genoma producevano fagi mutanti poiché lo schema di lettura di un gene veniva slittato Inserzioni o delezioni ravvicinate di tre basi ottenevano un prodotto molto simile al fenotipo wild-type.
I Geni sono unità ereditabili , arrangiate linearmente lungo i cromosomi. L’analisi di complementazione di moltissimi mutanti e le tecniche genetiche, specie nei microorganismi, hanno permesso di definire dei geni che determinano una funzione biologica anche nella loro struttura fine. Il gene è la unità più piccola , ma funzionalmente autonoma, in cui è organizzato il genoma. Il gene attivo da origine ad un prodotto diffusibile (Trascritto primario da cui origina, non sempre, la proteina). Ci sono differenze fra l’organizzazione dei geni eucariotici e procariotici ( operoni ).
Regione codificante che dirige la sintesi del rispettivo polipeptide; TSS : sito di inizio della trascrizione; UTR : due regioni, presenti nell’mRNA ai due lati della regione codificante, che non vengono tradotte in proteine; Promotore , una sequenza a monte della regione TTS, utilizzato come piattaforma di assemblaggio per la RNA polimerasi.
Il gene contiene la unità trascrizionale , che è il tratto di DNA copiato in RNA (trascritto primario). Il gene contiene inoltre: o dei segnali di inizio della trascrizione, p.e. i promotori o dei segnali per regolare la quantità, l’efficacia della trascrizione o dei segnali per fermare la trascrizione, p.e. i terminatori I Geni procariotici sono continui; I Geni eucariotici discontinui. I geni eucariotici tipicamente contengono sequenze intersperse non codificanti La scioccante scoperta di Phillip Sharp e Richard Roberts nel 1977, fu che l’mRNA del citoplasma delle cellule eucariotiche non era necessariamente la copia precisa dei geni presenti nel DNA nucleare. All’interno dei geni, vi sono dei tratti di sequenze di DNA che non hanno una controparte nell’mRNA.
È una scienza multidisciplinare che integra conoscenze informatiche, chimiche, matematiche, biologiche allo scopo di collezionare ed elaborare sistematicamente ogni informazione per ottenere la massima resa dalle ricerche sperimentali ma anche per sviluppare queste ultime in modo più mirato. Grazie alla bioinformatica è possibile avere uno sguardo d’insieme su tutte le conoscenze scientifiche e da questo partire per ulteriori osservazioni sia mediante metodi informatici, sia mediante metodi sperimentali.
La bioinformatica è distinta dall'informatica medica: lo studio interdisciplinare della progettazione, sviluppo, adozione e applicazione di innovazioni basate sull'IT nell'erogazione, gestione e pianificazione dei servizi sanitari. Da qualche parte tra le due discipline si trova l' informatica biomedica , il campo interdisciplinare che studia e persegue l'uso efficace di dati, informazioni e conoscenze biomedici per l'indagine scientifica, la risoluzione dei problemi e il processo decisionale, motivato dagli sforzi per migliorare la salute umana. Il termine “bioinformatica” è stato coniato da Paulien Hogeweg e Ben Hesper per descrivere “lo studio dei processi informatici nei sistemi biotecnologici”. La bioinformatica è diversa dalla bioinformatica medica. Chi si occupa di bioinformatica può appartenere a due categorie principali: Sviluppatori : Coloro che si occupano di creare nuovi strumenti informatici per l’analisi scientifica; Utenti : Coloro che utilizzano gli strumenti bioinformatici per ottenere dati e da questi partire per l’analisi sperimentale vera e propria. → Il programma che si utilizza può definirsi il metodo sperimentale della bioinformatica; → Le banche dati (dataset – raccolta di dati in modo ordinato) possono definirsi il materiale sperimentale utilizzato dalla bioinformatica. Per usare la bioinformatica non è necessario essere un bioinformatico perché qualunque programma che inseriamo in una banca dati (Tools: programmi) ci darà sempre un risultato, il problema è che noi dobbiamo trovare il risultato giusto. Le scienze della vita molecolare sono diventate sempre più dati guidati e dipendenti dalla condivisione dei dati attraverso database ad accesso aperto. Questo vale tanto per le scienze applicate quanto per la ricerca fondamentale. Inoltre, non è necessario essere un bioinformatico per utilizzare banche dati, metodi e strumenti bioinformatici.
Tuttavia, poiché la generazione di grandi set di dati diventa sempre più centrale per la ricerca biomedica, diventa sempre più necessario per ogni scienziato della vita molecolare capire cosa può (e, soprattutto, cosa non può) essere ottenuto utilizzando la bioinformatica.
EMBNet , nata nel 1988 come rete europea a supporto della ricerca bio- molecolare, oggi conta 41 nodi nazionali in paesi europei ed extraeuropei (in Italia il nodo è a Bari); APBioNet (Asian-Pacific Biologic Network), recentemente gemellata con EMBNet, organizzazione analoga. Oggi i due database primari più importati sono nei centri: EBI (Cambridge, UK): EMBL data-library NCBI (USA): GenBank 1960 - 1970s: Margareth Dayhoff (PIR, Risorse delle Informazioni delle Proteine) colleziona tutte le sequenze disponibili delle proteine nel ATLAS delle sequenze e strutture delle proteien; 1972 - 198 0: Distribuzione elettronica dell’ATLAS; 1982: L’inizio del database della sequenza elettronica del DNA nel EMBL (Laboratorio Molecolare Biologico Europeo) – Heidelberg Soon after GenBank, un’organizzazione simile al NCBI (Centro Nazione per le Informazioni Biotecnologiche) e DDBJ (Databse del DNA del Giappone) GenBank, EMBL, DDBJ sono i primi database dei nucleotidi. 1988: Le banche sono d’accordo per collaborare; Devono avere lo stesso format per collaborare; Commissioni diretti ai ricercatori → Richiesta per la pubblicazione del Giornale; Aggiornamento solo ad entrata del DB; I dati vengono scambiati nelle basi giornalmente; Sequence submission procedure: wEBIn at EMBL & BankIt at GenBank sono via Web. Sequin è un software scaricabile.
Anni '80: Amos Bairoch (Ginevra) ha convertito l'Atlas PIR in un formato simile a EMBL nt DB. 1986 PIR viene ribattezzato Swiss-Prot. Collabora e scambia dati con EMBL Swiss-Prot contiene solo sequenze proteiche annotate. È stato unito a TrEMBL (translation of EMBL nucleotide sequences), costituito da voci annotate computazionalmente derivate dalla traduzione di tutte le sequenze codificanti (CDS) trovate in E/G/D
Il DB primario contiene risultati sperimentali (con qualche interpretazione) Nel DB secondario troviamo recensioni curate (annotazioni) I DB primari sono ridondanti NCBI: http://www.ncbi.nlm.nih.gov/ EBI: http://www.ebi.ac.uk/
I database biologici hanno spesso un'interfaccia web, che consente all'utente di inviare query al database. È possibile accedere ad alcuni database da server Web diversi, ognuno dei quali offre un'interfaccia diversa.
L’oggetto principale è la ENTRY , un’unità riconoscibile grazie ad un identificatore univoco, che possiede una descrizione organizzata in campi standardizzati riconoscibili grazie ad HEADERS univoci nella banca dati. Es: Identificatore …… Autore …… Data …… Ogni banca dati presenta 2 versioni delle entries: Flat-file : un file di testo semplice, formattato, non interattivo; HTML (o XML): Interattivo, di facile consultazione. Un file può essere suddiviso in 3 principali porzioni:
Ci possono essere degli aggiornamenti dell’Header: La data dell’immissione e l’ultimo aggiornamento della scheda sono riportate nell’EMBL (versione numerica); Successivamente c’è la definizione delle righe. L’Accession Numebr è il numero che deve essere citato nella pubblicazione ed è sempre associato con la sua scheda. Le informazioni tassonomiche. Nel EMBL OS (Risorsa dell’Organismo) e OC (Classificazione dell’Organismo). Nel GenBank c’è la Risorsa e l’Organismo. La referenza. Alla fine, deve essere inclusa la referenza o la citazione; The Feature Table – Genbank e EMBL La tavola delle caratteristiche è una rappresentazione diretta dell’informazione biologica nel file.
Come prendere le informazioni dalle banche dati: o Sommario: o Sfogliare: Possiamo cercare tutto quello che vogliamo o Ricerca: Stiamo cercando un’informazione specifica Ricerca delle Banche dati: o Dobbiamo avere una chiave degli elementi delle banche dati. Nome del gene; Sequenza del gene; Altre informazioni.
Inizia dalla sequenza, trova informazioni a riguardo Molti tipi di sequenze di input o Potrebbe essere una sequenza di aminoacidi o nucleotidi o Sequenza genomica o mRNA/cDNA o proteina o Sequenze complete o frammentarie Le corrispondenze esatte sono rare (anche poco interessanti in molti casi), quindi spesso l'obiettivo è recuperare una serie di sequenze simili. o Possono essere interessanti differenze sia piccole (mutazioni) che grandi (necessarie per la funzione) all'interno di “simili”.
Forse il tipo più semplice di esperimento di bioinformatica che puoi eseguire è cercare nei database pubblici informazioni su un gene o una proteina specifici. Puoi cercare in un gran numero di database pubblici contemporaneamente, senza dover sapere in anticipo quale database è più rilevante per te. L'esecuzione di una semplice ricerca non è necessariamente un esperimento e quindi non necessita di un controllo. (es.: tutte le sequenze proteiche con la parola chiave 'globina') Tuttavia, non appena usi i risultati di una ricerca per rispondere a una domanda biologica, diventa un esperimento. (es.: quali proteine chinasi sono i) in una particolare via di reazione e ii) sono sovra regolate in un particolare stato di malattia). Ora dovresti aggiungere alcuni controlli (es.: controlla se i tuoi termini di ricerca corrispondono ad altri percorsi non correlati).
Il confronto di due o più elementi nei dati biologici ci consente di esaminare quanto strettamente correlati potrebbero essere, in termini di funzione, evoluzione o entrambi. Il tipo di confronto più utilizzato in bioinformatica è il confronto di sequenze per stabilire quanto una sequenza di nucleotidi o proteine sia strettamente correlata ad altre nei database pubblici. Questo viene fatto allineando le sequenze – riordinandole per trovare la migliore corrispondenza possibile – e prende in considerazione inserimenti, cancellazioni e sostituzioni che possono essersi verificati dalla divergenza da un teorico antenato comune. Se venisse trovata una corrispondenza, potremmo essere in grado di dedurre qualcosa sulla relazione tra le sequenze.
La modellazione strutturale può essere utilizzata per generare ipotesi sulla struttura (e quindi per implicare cose sulla funzione biochimica) delle macromolecole. La modellizzazione dei processi è un aspetto importante della biologia dei sistemi.
L'integrazione dei dati è una sfida di vecchia data per la bioinformatica, ma può essere un mezzo estremamente potente per raccogliere prove a favore o contro un'ipotesi. Ad esempio, l'integrazione di dati da esperimenti di trascrittomica, proteomica e metabolomica può aiutare a costruire prove che un particolare percorso è coinvolto in una malattia o nella resistenza a un farmaco. Come con la modellazione dei sistemi, l'integrazione dei dati ti aiuta a generare ipotesi , ma deve essere combinata con approcci sperimentali per testare la tua ipotesi. Questi sono i veri controlli.
NCBI contiene 4 dati elementi: o Citazioni bibliografiche (la parte della biblioteca); o Dati sulle sequenze; o Dati sulle strutture; o Dati medici e scientifici (approccio con il pubblico/con il qualunque paziente o medico che vuole avere delle informazioni più specifiche su una malattia/patologia)
Dati di archivio o primari o Testo: PubMed o Sequenza del DNA: GenBank/EMBL/DDBJ o Sequenze/strutture proteiche: PDB (RCSB) Dati curati o elaborati o Sequenze: RefSeq (DNA, mRNA, proteine, ecc.) o Sequenze e strutture proteiche: MMDB o Mappe degli organismi: Entrez Genomes (umano, topo, lievito, ecc.) o Geni: LocusLink (loci), Homologene (orthologs), OMIM (malattia) Database specializzati o Organismo: mappe in Entrez Genomes (umano, topo, lievito, ecc.) o Funzione: Sequenze in UniVec (vettori), UniGene (geni) o Metodi di sequenziamento: dbEST, dbGSS, dbSTS, HTG