Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Bioinformatica slide, Schemi e mappe concettuali di Bioinformatica

Appunti in slide di bioinformatica

Tipologia: Schemi e mappe concettuali

2025/2026

Caricato il 09/02/2026

flavia-occhipinti
flavia-occhipinti 🇮🇹

1 documento

1 / 47

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Genomi Nucleari
Sempre costituiti da molecole lineari di DNA: i cromosomi.
Ogni cromosoma umano contiene, in media, una molecola di DNA lunga
circa 5 cm: nel nucleo (circa 6 micron di diametro) di una cellula aploide è
contenuto circa 1 m di DNA!
Negli Eucarioti il materiale genetico assume la forma di un complesso
nucleo-proteico fortemente compattato a cui si dà il nome di cromatina.
Esiste una sorta di organizzazione gerarchica del grado di compattamento
della cromatina. Il nucleosoma costituisce il grado più semplice di
compattamento.
Organizzazione e compattamento del DNA genomico
All’interno della cellula il DNA è associato con proteine a formare il/i cromosoma/i.
Nei cromosomi, l’associazione del DNA con proteine specifiche lo protegge e lo
rende più stabile
I cromosomi eucariotici = cromatina (50% DNA: 50% proteine)
Proteine istoniche e non-istoniche regolano tutte le reazioni che coinvolgono il
DNA.
Il CROMOSOMA consente al DNA della cellula eucariotica di essere:
Condensato all’interno del nucleo
Protetto da eventuali danni;
Trasmesso facilmente alle cellule figlie;
Correttamente espresso;
Facilmente ricombinato con i cromosomi parentali
Ma ne blocca il metabolismo
Esempi di organizzazione genomica nei procarioti
Organizzazione genomica
Specie
Molecole di DNA
Dimensioni
(Mb)
di geni
Escherichia coli
K12
1 molecola circolare
4,639
4397
Vibrio cholerae
2 molecole circolari:
- Cromosoma principale
- Megaplasmide
2,961
1,073
2770
1115
Deinococcus
radiodurans
4 molecole circolari:
- Cromosoma 1
- Cromosoma 2
- Megaplasmide
- Plasmide
2633
369
145
40
Borrelia
burgdorferi
7-8 molecole circolari plasmidiche +
11 molecole lineari:
Cromosoma lineare
Plasmidi circolari + plasmidi lineari
0,911
0,533
853
430
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f

Anteprima parziale del testo

Scarica Bioinformatica slide e più Schemi e mappe concettuali in PDF di Bioinformatica solo su Docsity!

Genomi Nucleari

 Sempre costituiti da molecole lineari di DNA: i cromosomi.  Ogni cromosoma umano contiene, in media, una molecola di DNA lunga circa 5 cm: nel nucleo (circa 6 micron di diametro) di una cellula aploide è contenuto circa 1 m di DNA!  Negli Eucarioti il materiale genetico assume la forma di un complesso nucleo-proteico fortemente compattato a cui si dà il nome di cromatina.  Esiste una sorta di organizzazione gerarchica del grado di compattamento della cromatina. Il nucleosoma costituisce il grado più semplice di compattamento.

Organizzazione e compattamento del DNA genomico

All’interno della cellula il DNA è associato con proteine a formare il/i cromosoma/i. Nei cromosomi, l’associazione del DNA con proteine specifiche lo protegge e lo rende più stabile I cromosomi eucariotici = cromatina (50% DNA: 50% proteine) Proteine istoniche e non-istoniche regolano tutte le reazioni che coinvolgono il DNA. Il CROMOSOMA consente al DNA della cellula eucariotica di essere:  Condensato all’interno del nucleo  Protetto da eventuali danni;  Trasmesso facilmente alle cellule figlie;  Correttamente espresso;  Facilmente ricombinato con i cromosomi parentali  Ma ne blocca il metabolismo

Esempi di organizzazione genomica nei procarioti

Organizzazione genomica Specie Molecole di DNA Dimensioni (Mb) N° di geni Escherichia coli K 1 molecola circolare 4,639 4397 Vibrio cholerae 2 molecole circolari:

  • Cromosoma principale
  • Megaplasmide 2, 1, 2770 1115 Deinococcus radiodurans 4 molecole circolari:
  • Cromosoma 1
  • Cromosoma 2
  • Megaplasmide
  • Plasmide 2, 0, 0, 0, 2633 369 145 40 Borrelia burgdorferi 7 - 8 molecole circolari plasmidiche + 11 molecole lineari: Cromosoma lineare Plasmidi circolari + plasmidi lineari 0, 0, 853 430

Anatomia dei Genomi Procariotici

 Hanno dimensioni ridotte, in genere inferiori a 5 Mb;  Genoma contenuto in unʼunica molecola, generalmente circolare (nucleoide). In Streptomyces e Borrelia cromosomi lineari;  La molecola (in E.coli, 1.6 mm) è compattata allʼinterno della cell. batterica (1.0 x 2.0 m) grazie a superavvolgimenti positivi o negativi e lʼaiuto di almeno 4 proteine specifiche, fra cui le HU (60.000) che costituiscono un tetramero attorno al quale si avvolgono 60 bp di DNA. I tetrameri sono spaziati omogeneamente o ristretti al core del nucleoide?  Il DNA batterico (nucleoide) è legato a proteine che ne impediscono il rilassamento: 80% DNA, 20% proteine;

 DNA organizzato a

formare 40-50 anse (~100 kb) che si dipartono da un core centrale proteico DNA plasmidico: contiene geni specifici (integrone e geni per la resistenza agli antibiotici) ma non indispensabili.

La complessità è correlabile alla compattezza dei genomi  Genomi compatti economicizzano il DNA ravvicinando le sequenze funzionali  Genomi poco compatti presentano grandi spazi non utilizzati fra le unità codificanti

E. coli S. cerevisiae D. melanogaster Uomo

Densità genica

(Geni/Mb)

Introni/gene 0 0.04 3 6

Seq. altamente

ripetute

o intersperse

Il cromosoma umano 21 è mostrato in grigio; una porzione del cromosoma 16 di topo è mostrato in blu; una porzione del cromosoma 17 in arancio e del cromosoma 10 in verde. I geni che codificano per proteine sono mostrati con dei punti di tre colori diversi corrispondenti ai colori dei tre cromosomi di topo. Le coppie di geni marcatori sono unite da una linea. Gli organismi PIU’ complessi hanno una MINORE densità genica. ALLA DIMINUZIONE DELLA DENSITÀ GENICA CONTRIBUISCONO:  L’aumento della dimensione dei geni (lunghezza genica e n° di introni e lunghezza delle sequenze regolative)  L’aumento delle sequenze intergeniche Nei genomi complessi vi sono componenti distinti:  DNA altamente ripetitivo o R (frequenza di ripetizione) >100, o Non porta quasi nessuna informazione, possiede bassa complessità  DNA moderatamente ripetitivo o 10

DNA ripetitivo

Se l’intero DNA viene digerito con una nucleasi di restrizione che non taglia a livello delle sequenze ripetute, i tratti delle ripetizioni prodotte avranno una composizione complessiva di basi molto diversa dal rimanente DNA DNA ripetuto in tandem (poco rappresentato nei procarioti) DNA centromerico ( o DNA satellite ) , ripetizioni di seq. da 5 a 200 bp Mini-satelliti (es.: DNA telomerico) ripetizioni di seq < 25 bp Micro-satelliti : ripetizioni anche di singole o di coppie di basi DNA ripetuto disperso nel genoma Trasposoni a DNA (elementi mobili) Retrotrasposoni (elementi mobili derivati da retrovirus) Buona parte del DNA dei genomi più grandi è non-codificante  I genomi complessi hanno da 10x a 30x più DNA di quello che sarebbe necessario per codificare tutti gli RNA o le proteine nell’organsimo.  Il DNA non-codificante include: o Introni nei geni o Gli elementi regolatori dei geni o Le copie multiple dei geni, tra cui gli pseudogeni o Le sequenze intergeniche o Il DNA ripetitivo

Componenti del Genoma umano

 I genomi umani hanno circa 3 miliardi di base pairs di DNA  Circa il 3% di esse codifica per proteine  Circa il 40-50% è ripetitivo, costituito da (retro)transposizione  Qual è la funzione del restante 50%?

Mutazioni e modificazioni delle basi alterano la sequenza del DNA

  1. Le mutazioni sono cambiamenti di una o poche basi nella sequenza del DNA.
  2. Le mutazioni avvengono spontaneamente (M. spontanee) o a causa di agenti esterni, mutageni (M. indotte).
  3. Ogni cellula possiede una pletora di sistemi enzimatici responsabili della riparazione del DNA. È stato provato che la distruzione dei geni codificanti questi enzimi causa cancro etc.
  4. Le mutazioni sono tuttavia un evento naturale. L’accumulo di mutazioni nei genomi di individui diversi della stessa specie contribuisce all’evoluzione.
  5. Oltre alle mutazioni esistono altri tipi di modificazioni del DNA.

Classificazione delle mutazioni

Mutazioni puntiformi o geniche : alterazione di un solo punto del DNA (mismatch), dunque in un solo gene  Mutazioni cromosomiche : alterazioni grossolane della struttura di un cromosoma  Mutazioni genomiche : alterazioni del numero di cromosomi presenti in un genoma

Classificazione delle mutazioni puntiformi

Chimica:  Transizioni (es.: da una Pur/Pyr ad un’altra Pur/Pyr)  Trasversioni (es.: da una Pur ad una Pyr, o viceversa) Funzionale (effetto sulla proteina codificata):  Sostituzioni : o Silenti (stesso aa) o Missenso (diverso aa) o Non senso (+ stop) o Readthrough (-stop)  DelezioniInserzioni Con la replicazione una mutazione puntiforme può essere fissata definitivamente nel genoma.

Mutazioni puntiformi del DNA

Reazioni chimiche responsabili di mutazioni :

  1. Inserzione di una base errata durante la replicazione e tautomeria delle basi (1/10.000 basi incorporate)
  2. Deamminazione: 100/cell/giorno
  3. Depurinazione: 10.000/cell/giorno
  4. Formazione di legami fra basi (dimeri di T)
  5. Formazione di addotti (alchilazione). Fattori ambientali responsabili di danni al DNA :
  6. Agenti mutageni chimici
  7. Radiazioni: dagli UV ai raggi-X
  8. Dieta e fumo: provocano stress ossidativo che direttamente o indirettamente provoca vari danni al DNA Le mutazioni, gli pseudogeni e lo splicing alternativo contribuiscono tutti alla diversità genetica. Le famiglie multigeniche sono costituite da geni identici o simili.
  9. La famiglia dei geni degli istoni del riccio di mare. I geni per i cinque istoni sono raggruppati e ripetuti in tandem numerose volte
  10. L’organizzazione dei geni della globina di topo. Questi geni differiscono lievemente l’uno dall’altro; essi codificano globine leggermente diverse le quali formano molecole di emoglobina con sottili differenze nella capacità di trasportare l’ossigeno.

Gli pseudogeni

Gli pseudogeni sono sequenze di DNA molto simili ai geni funzionali ma privi delle sequenze necessarie per la loro espressione.  Pseudogeni duplicati o non processati: derivano da eventi di duplicazione genica seguiti da mutazioni.  Pseudogeni processati: prodotti in seguito a processi di trascrizione inversa e mutazione. Negli eucarioti da un Gene possono essere prodotte più proteine diverse ( splicing alternativo )

Il codice è altamente degenerato e più codoni (sinonimi) specificano per un singolo amminoacido Generalmente, i codoni sinonimi presentano identiche basi nelle prime due posizioni. È un meccanismo che permette di ridurre al minimo gli errori di lettura e di minimizzare le mutazioni :  Codoni con una transizione nella 3a^ posizione codificano lo stesso aa (anche le trasversioni, nella metà dei casi, non cambieranno l’aa);  Codoni con Pyr in 2a^ posizione, spesso, codificano per aa idrofobici;  Codoni con Pur in 2a^ posizione, spesso producono aa polari;  Quando le prime due posizioni di un codone sono occupate da C o G qualunque sia la base in 3a^ posizione verrà sempre codificato lo stesso aa (prolina, alanina, arginina o glicina). Il codice è degenerato : la maggior parte degli aminoacidi sono codificati da più di un codone, ad eccezione della metionina e del triptofano.

Il Codice Genetico è (quasi) universale

Nei mitocondri: UGA codifica per Trp invece di essere uno stop (anche UGA e UGG formano una coppia di codoni); la Met interna è specificata sia da AUG che AUA. I codoni di stop sono 4: oltre UAA e UAG anche AGA e AGG. Ma quale codone corrisponde ad un certo amminoacido? Un primo indizio lo ottenne Marshall Nirenberg il quale dimostrò che l’omopolinucleotide poli(U) dirigeva la sintesi della polifenilalanina.  Un polinucleotide omogeneo (A)n può codificare per un solo polipeptide costituito da un solo aminoacido;  Una ripetizione di una sequenza di-nucleotidica (AB)n produce un prodotto di aminoacidi alternati;  Una ripetizione di un trimero (ABC)n porta alla produzione simultanea di tre diversi polipeptidi omogenei. Questi risultati permisero di definire che il codice genetico è formato da triplette e non ha punteggiatura.  Crick e Sydney Brenner arrivarono contemporaneamente, ad ottenere le stesse risposte mediante esperimenti genetici con il batteriofago.  Inserzioni o delezioni di una o due paia basi nel genoma producevano fagi mutanti poiché lo schema di lettura di un gene veniva slittato  Inserzioni o delezioni ravvicinate di tre basi ottenevano un prodotto molto simile al fenotipo wild-type.

Il GENE

Proprietà fondamentali

 I Geni sono unità ereditabili , arrangiate linearmente lungo i cromosomi.  L’analisi di complementazione di moltissimi mutanti e le tecniche genetiche, specie nei microorganismi, hanno permesso di definire dei geni che determinano una funzione biologica anche nella loro struttura fine.  Il gene è la unità più piccola , ma funzionalmente autonoma, in cui è organizzato il genoma.  Il gene attivo da origine ad un prodotto diffusibile (Trascritto primario da cui origina, non sempre, la proteina).  Ci sono differenze fra l’organizzazione dei geni eucariotici e procariotici ( operoni ).

La struttura generale di un gene codificante una proteina

Regione codificante che dirige la sintesi del rispettivo polipeptide;  TSS : sito di inizio della trascrizione;  UTR : due regioni, presenti nell’mRNA ai due lati della regione codificante, che non vengono tradotte in proteine;  Promotore , una sequenza a monte della regione TTS, utilizzato come piattaforma di assemblaggio per la RNA polimerasi.

I geni contengono segnali regolatorii

 Il gene contiene la unità trascrizionale , che è il tratto di DNA copiato in RNA (trascritto primario).  Il gene contiene inoltre: o dei segnali di inizio della trascrizione, p.e. i promotori o dei segnali per regolare la quantità, l’efficacia della trascrizione o dei segnali per fermare la trascrizione, p.e. i terminatori I Geni procariotici sono continui; I Geni eucariotici discontinui. I geni eucariotici tipicamente contengono sequenze intersperse non codificanti La scioccante scoperta di Phillip Sharp e Richard Roberts nel 1977, fu che l’mRNA del citoplasma delle cellule eucariotiche non era necessariamente la copia precisa dei geni presenti nel DNA nucleare. All’interno dei geni, vi sono dei tratti di sequenze di DNA che non hanno una controparte nell’mRNA.

Che cos’è la Bioinformatica?

È una scienza multidisciplinare che integra conoscenze informatiche, chimiche, matematiche, biologiche allo scopo di collezionare ed elaborare sistematicamente ogni informazione per ottenere la massima resa dalle ricerche sperimentali ma anche per sviluppare queste ultime in modo più mirato. Grazie alla bioinformatica è possibile avere uno sguardo d’insieme su tutte le conoscenze scientifiche e da questo partire per ulteriori osservazioni sia mediante metodi informatici, sia mediante metodi sperimentali.

Distinzione dall'informatica medica

La bioinformatica è distinta dall'informatica medica: lo studio interdisciplinare della progettazione, sviluppo, adozione e applicazione di innovazioni basate sull'IT nell'erogazione, gestione e pianificazione dei servizi sanitari. Da qualche parte tra le due discipline si trova l' informatica biomedica , il campo interdisciplinare che studia e persegue l'uso efficace di dati, informazioni e conoscenze biomedici per l'indagine scientifica, la risoluzione dei problemi e il processo decisionale, motivato dagli sforzi per migliorare la salute umana. Il termine “bioinformatica” è stato coniato da Paulien Hogeweg e Ben Hesper per descrivere “lo studio dei processi informatici nei sistemi biotecnologici”. La bioinformatica è diversa dalla bioinformatica medica. Chi si occupa di bioinformatica può appartenere a due categorie principali:  Sviluppatori : Coloro che si occupano di creare nuovi strumenti informatici per l’analisi scientifica;  Utenti : Coloro che utilizzano gli strumenti bioinformatici per ottenere dati e da questi partire per l’analisi sperimentale vera e propria. → Il programma che si utilizza può definirsi il metodo sperimentale della bioinformatica; → Le banche dati (dataset – raccolta di dati in modo ordinato) possono definirsi il materiale sperimentale utilizzato dalla bioinformatica. Per usare la bioinformatica non è necessario essere un bioinformatico perché qualunque programma che inseriamo in una banca dati (Tools: programmi) ci darà sempre un risultato, il problema è che noi dobbiamo trovare il risultato giusto. Le scienze della vita molecolare sono diventate sempre più dati guidati e dipendenti dalla condivisione dei dati attraverso database ad accesso aperto. Questo vale tanto per le scienze applicate quanto per la ricerca fondamentale. Inoltre, non è necessario essere un bioinformatico per utilizzare banche dati, metodi e strumenti bioinformatici.

Tuttavia, poiché la generazione di grandi set di dati diventa sempre più centrale per la ricerca biomedica, diventa sempre più necessario per ogni scienziato della vita molecolare capire cosa può (e, soprattutto, cosa non può) essere ottenuto utilizzando la bioinformatica.

Infrastrutture principali

EMBNet , nata nel 1988 come rete europea a supporto della ricerca bio- molecolare, oggi conta 41 nodi nazionali in paesi europei ed extraeuropei (in Italia il nodo è a Bari); APBioNet (Asian-Pacific Biologic Network), recentemente gemellata con EMBNet, organizzazione analoga. Oggi i due database primari più importati sono nei centri:  EBI (Cambridge, UK): EMBL data-library  NCBI (USA): GenBank  1960 - 1970s: Margareth Dayhoff (PIR, Risorse delle Informazioni delle Proteine) colleziona tutte le sequenze disponibili delle proteine nel ATLAS delle sequenze e strutture delle proteien;  1972 - 198 0: Distribuzione elettronica dell’ATLAS;  1982: L’inizio del database della sequenza elettronica del DNA nel EMBL (Laboratorio Molecolare Biologico Europeo) – Heidelberg  Soon after GenBank, un’organizzazione simile al NCBI (Centro Nazione per le Informazioni Biotecnologiche) e DDBJ (Databse del DNA del Giappone) GenBank, EMBL, DDBJ sono i primi database dei nucleotidi.  1988: Le banche sono d’accordo per collaborare;  Devono avere lo stesso format per collaborare;  Commissioni diretti ai ricercatori → Richiesta per la pubblicazione del Giornale;  Aggiornamento solo ad entrata del DB;  I dati vengono scambiati nelle basi giornalmente;  Sequence submission procedure: wEBIn at EMBL & BankIt at GenBank sono via Web. Sequin è un software scaricabile.

Database di proteine primarie (di archivio)

 Anni '80: Amos Bairoch (Ginevra) ha convertito l'Atlas PIR in un formato simile a EMBL nt DB.  1986 PIR viene ribattezzato Swiss-Prot. Collabora e scambia dati con EMBL  Swiss-Prot contiene solo sequenze proteiche annotate. È stato unito a TrEMBL (translation of EMBL nucleotide sequences), costituito da voci annotate computazionalmente derivate dalla traduzione di tutte le sequenze codificanti (CDS) trovate in E/G/D

Banche dati primarie vs Banche dati secondarie

 Il DB primario contiene risultati sperimentali (con qualche interpretazione)  Nel DB secondario troviamo recensioni curate (annotazioni)  I DB primari sono ridondanti NCBI: http://www.ncbi.nlm.nih.gov/ EBI: http://www.ebi.ac.uk/

Queste banche dati sfruttano internet

 I database biologici hanno spesso un'interfaccia web, che consente all'utente di inviare query al database.  È possibile accedere ad alcuni database da server Web diversi, ognuno dei quali offre un'interfaccia diversa.

Com’è organizzato un database biologico?

L’oggetto principale è la ENTRY , un’unità riconoscibile grazie ad un identificatore univoco, che possiede una descrizione organizzata in campi standardizzati riconoscibili grazie ad HEADERS univoci nella banca dati. Es: Identificatore …… Autore …… Data …… Ogni banca dati presenta 2 versioni delle entries:  Flat-file : un file di testo semplice, formattato, non interattivo;  HTML (o XML): Interattivo, di facile consultazione. Un file può essere suddiviso in 3 principali porzioni:

  1. La parte della testa (The header, cioè il titolo), contiene il contenuto del record;
  2. Le caratteristiche (Feature) di quel particolare oggetto/sequenza;
  3. La sequenza vera e propria. Il segno che indica la fine della sequenza è “//” e il rigo successivo sarà il primo della nuova entry. L’header è il più specifico database. Nella prima linea c’è:  Il nome;  La lunghezza della sequenza;  Il tipo di molecola (La natura biologica della molecola);  La divisione del codice;  La data dell’immissione (solo nel GenBank/DDBJ).

Ci possono essere degli aggiornamenti dell’Header:  La data dell’immissione e l’ultimo aggiornamento della scheda sono riportate nell’EMBL (versione numerica);  Successivamente c’è la definizione delle righe.  L’Accession Numebr è il numero che deve essere citato nella pubblicazione ed è sempre associato con la sua scheda.  Le informazioni tassonomiche. Nel EMBL OS (Risorsa dell’Organismo) e OC (Classificazione dell’Organismo). Nel GenBank c’è la Risorsa e l’Organismo.  La referenza. Alla fine, deve essere inclusa la referenza o la citazione; The Feature Table – Genbank e EMBL  La tavola delle caratteristiche è una rappresentazione diretta dell’informazione biologica nel file.

Utilizzazione delle Banche Dati

 Come prendere le informazioni dalle banche dati: o Sommario: o Sfogliare: Possiamo cercare tutto quello che vogliamo o Ricerca: Stiamo cercando un’informazione specifica  Ricerca delle Banche dati: o Dobbiamo avere una chiave degli elementi delle banche dati.  Nome del gene;  Sequenza del gene;  Altre informazioni.

Ricerca delle sequenze delle Banche Dati

 Inizia dalla sequenza, trova informazioni a riguardo  Molti tipi di sequenze di input o Potrebbe essere una sequenza di aminoacidi o nucleotidi o Sequenza genomica o mRNA/cDNA o proteina o Sequenze complete o frammentarie  Le corrispondenze esatte sono rare (anche poco interessanti in molti casi), quindi spesso l'obiettivo è recuperare una serie di sequenze simili. o Possono essere interessanti differenze sia piccole (mutazioni) che grandi (necessarie per la funzione) all'interno di “simili”.

Ricerca

Forse il tipo più semplice di esperimento di bioinformatica che puoi eseguire è cercare nei database pubblici informazioni su un gene o una proteina specifici. Puoi cercare in un gran numero di database pubblici contemporaneamente, senza dover sapere in anticipo quale database è più rilevante per te. L'esecuzione di una semplice ricerca non è necessariamente un esperimento e quindi non necessita di un controllo. (es.: tutte le sequenze proteiche con la parola chiave 'globina') Tuttavia, non appena usi i risultati di una ricerca per rispondere a una domanda biologica, diventa un esperimento. (es.: quali proteine chinasi sono i) in una particolare via di reazione e ii) sono sovra regolate in un particolare stato di malattia). Ora dovresti aggiungere alcuni controlli (es.: controlla se i tuoi termini di ricerca corrispondono ad altri percorsi non correlati).

Confrontando

Il confronto di due o più elementi nei dati biologici ci consente di esaminare quanto strettamente correlati potrebbero essere, in termini di funzione, evoluzione o entrambi. Il tipo di confronto più utilizzato in bioinformatica è il confronto di sequenze per stabilire quanto una sequenza di nucleotidi o proteine sia strettamente correlata ad altre nei database pubblici. Questo viene fatto allineando le sequenze – riordinandole per trovare la migliore corrispondenza possibile – e prende in considerazione inserimenti, cancellazioni e sostituzioni che possono essersi verificati dalla divergenza da un teorico antenato comune. Se venisse trovata una corrispondenza, potremmo essere in grado di dedurre qualcosa sulla relazione tra le sequenze.

Modellazione

La modellazione strutturale può essere utilizzata per generare ipotesi sulla struttura (e quindi per implicare cose sulla funzione biochimica) delle macromolecole. La modellizzazione dei processi è un aspetto importante della biologia dei sistemi.

Integrando

L'integrazione dei dati è una sfida di vecchia data per la bioinformatica, ma può essere un mezzo estremamente potente per raccogliere prove a favore o contro un'ipotesi. Ad esempio, l'integrazione di dati da esperimenti di trascrittomica, proteomica e metabolomica può aiutare a costruire prove che un particolare percorso è coinvolto in una malattia o nella resistenza a un farmaco. Come con la modellazione dei sistemi, l'integrazione dei dati ti aiuta a generare ipotesi , ma deve essere combinata con approcci sperimentali per testare la tua ipotesi. Questi sono i veri controlli.

I vari tipi di dati:

 NCBI contiene 4 dati elementi: o Citazioni bibliografiche (la parte della biblioteca); o Dati sulle sequenze; o Dati sulle strutture; o Dati medici e scientifici (approccio con il pubblico/con il qualunque paziente o medico che vuole avere delle informazioni più specifiche su una malattia/patologia)

Tipi di banche dati:

 Dati di archivio o primari o Testo: PubMed o Sequenza del DNA: GenBank/EMBL/DDBJ o Sequenze/strutture proteiche: PDB (RCSB)  Dati curati o elaborati o Sequenze: RefSeq (DNA, mRNA, proteine, ecc.) o Sequenze e strutture proteiche: MMDB o Mappe degli organismi: Entrez Genomes (umano, topo, lievito, ecc.) o Geni: LocusLink (loci), Homologene (orthologs), OMIM (malattia)  Database specializzati o Organismo: mappe in Entrez Genomes (umano, topo, lievito, ecc.) o Funzione: Sequenze in UniVec (vettori), UniGene (geni) o Metodi di sequenziamento: dbEST, dbGSS, dbSTS, HTG