Prepara i tuoi esami
Ottieni punti
Guide e consigli
Vendi su Docsity
Docsity AI

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Guide e consigli

Vendi su Docsity

Docsity AI

Accedi Registrati

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Cerca documenti

Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity

Cerca la tua università

Trova i documenti specifici per gli esami della tua università

Video Corsi

Preparati con lezioni e prove svolte basate sui programmi universitari!

Quiz

Rispondi a reali domande d’esame e scopri la tua preparazione

Docsity AINEW

Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali

Maturità 2026

Studia con prove svolte, tesine e consigli utili

Esplora domande

Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te

Argomenti di studio

Esplora i documenti più scaricati per gli argomenti di studio più popolari

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Condividi documenti

20 Punti

Per ogni documento caricato

Rispondi alle domande

5 Punti

per ogni risposta data (max 1 al giorno)

Tutti i modi per ottenere punti gratis

Ottieni punti subito

Scegli un piano Premium con tutti i punti di cui hai bisogno

Opportunità di studio

Scegli il tuo prossimo programma di studio

Entra in contatto con le migliori università del mondo e scegli il tuo percorso di studi

Classifica delle migliori università

Scopri le migliori università italiane secondo gli studenti

Community

Chiedi alla community

Chiedi aiuto alla community e sciogli i tuoi dubbi legati allo studio

Guide Gratuite

I nostri eBook salva studente

Scarica gratuitamente le nostre guide sulle tecniche di studio, metodi per gestire l'ansia, dritte per la tesi realizzati da tutor Docsity

Bioinformatica slide, Schemi e mappe concettuali di Bioinformatica

Università degli Studi di Catania (UNICT)Bioinformatica

Appunti in slide di bioinformatica

Tipologia: Schemi e mappe concettuali

2025/2026

Caricato il 09/02/2026

flavia-occhipinti 🇮🇹

1 documento

1 / 47

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

Genomi Nucleari

 Sempre costituiti da molecole lineari di DNA: i cromosomi.

 Ogni cromosoma umano contiene, in media, una molecola di DNA lunga

circa 5 cm: nel nucleo (circa 6 micron di diametro) di una cellula aploide è

contenuto circa 1 m di DNA!

 Negli Eucarioti il materiale genetico assume la forma di un complesso

nucleo-proteico fortemente compattato a cui si dà il nome di cromatina.

 Esiste una sorta di organizzazione gerarchica del grado di compattamento

della cromatina. Il nucleosoma costituisce il grado più semplice di

compattamento.

Organizzazione e compattamento del DNA genomico

All’interno della cellula il DNA è associato con proteine a formare il/i cromosoma/i.

Nei cromosomi, l’associazione del DNA con proteine specifiche lo protegge e lo

rende più stabile

I cromosomi eucariotici = cromatina (50% DNA: 50% proteine)

Proteine istoniche e non-istoniche regolano tutte le reazioni che coinvolgono il

DNA.

Il CROMOSOMA consente al DNA della cellula eucariotica di essere:

 Condensato all’interno del nucleo

 Protetto da eventuali danni;

 Trasmesso facilmente alle cellule figlie;

 Correttamente espresso;

 Facilmente ricombinato con i cromosomi parentali

 Ma ne blocca il metabolismo

Esempi di organizzazione genomica nei procarioti

Organizzazione genomica

Specie

Molecole di DNA

Dimensioni

(Mb)

N° di geni

Escherichia coli

K12

1 molecola circolare

4,639

4397

Vibrio cholerae

2 molecole circolari:

- Cromosoma principale

- Megaplasmide

2,961

1,073

2770

1115

Deinococcus

radiodurans

4 molecole circolari:

- Cromosoma 1

- Cromosoma 2

- Megaplasmide

- Plasmide

2,649

0,412

0,177

0,046

2633

369

145

40

Borrelia

burgdorferi

7-8 molecole circolari plasmidiche +

11 molecole lineari:

Cromosoma lineare

Plasmidi circolari + plasmidi lineari

0,911

0,533

853

430

Scopri Schemi e mappe concettuali di Bioinformatica Università degli Studi di Catania (UNICT)

Documenti correlati

Bioinformatica - Prof. Ferro - Unict - Intero Corso Slide

Bioinformatica per medici

Bioinformatica medicina

I principali tipi di dati della bioinformatica

database bioinformatica

Bioinformatica allineamenti

(1)

Bioinformatica torino

(1)

principi di bioinformatica

Bioinformatica sbobine

(1)

Bioinformatica generale

Esercizi Bioinformatica

(1)

bioinformatica ripasso generale

Anteprima parziale del testo

Scarica Bioinformatica slide e più Schemi e mappe concettuali in PDF di Bioinformatica solo su Docsity!

Genomi Nucleari

 Sempre costituiti da molecole lineari di DNA: i cromosomi.  Ogni cromosoma umano contiene, in media, una molecola di DNA lunga circa 5 cm: nel nucleo (circa 6 micron di diametro) di una cellula aploide è contenuto circa 1 m di DNA!  Negli Eucarioti il materiale genetico assume la forma di un complesso nucleo-proteico fortemente compattato a cui si dà il nome di cromatina.  Esiste una sorta di organizzazione gerarchica del grado di compattamento della cromatina. Il nucleosoma costituisce il grado più semplice di compattamento.

Organizzazione e compattamento del DNA genomico

All’interno della cellula il DNA è associato con proteine a formare il/i cromosoma/i. Nei cromosomi, l’associazione del DNA con proteine specifiche lo protegge e lo rende più stabile I cromosomi eucariotici = cromatina (50% DNA: 50% proteine) Proteine istoniche e non-istoniche regolano tutte le reazioni che coinvolgono il DNA. Il CROMOSOMA consente al DNA della cellula eucariotica di essere:  Condensato all’interno del nucleo  Protetto da eventuali danni;  Trasmesso facilmente alle cellule figlie;  Correttamente espresso;  Facilmente ricombinato con i cromosomi parentali  Ma ne blocca il metabolismo

Esempi di organizzazione genomica nei procarioti

Organizzazione genomica Specie Molecole di DNA Dimensioni (Mb) N° di geni Escherichia coli K 1 molecola circolare 4,639 4397 Vibrio cholerae 2 molecole circolari:

Cromosoma principale
Megaplasmide 2, 1, 2770 1115 Deinococcus radiodurans 4 molecole circolari:
Cromosoma 1
Cromosoma 2
Megaplasmide
Plasmide 2, 0, 0, 0, 2633 369 145 40 Borrelia burgdorferi 7 - 8 molecole circolari plasmidiche + 11 molecole lineari: Cromosoma lineare Plasmidi circolari + plasmidi lineari 0, 0, 853 430

Anatomia dei Genomi Procariotici

 Hanno dimensioni ridotte, in genere inferiori a 5 Mb;  Genoma contenuto in unʼunica molecola, generalmente circolare (nucleoide). In Streptomyces e Borrelia cromosomi lineari;  La molecola (in E.coli, 1.6 mm) è compattata allʼinterno della cell. batterica (1.0 x 2.0 m) grazie a superavvolgimenti positivi o negativi e lʼaiuto di almeno 4 proteine specifiche, fra cui le HU (60.000) che costituiscono un tetramero attorno al quale si avvolgono 60 bp di DNA. I tetrameri sono spaziati omogeneamente o ristretti al core del nucleoide?  Il DNA batterico (nucleoide) è legato a proteine che ne impediscono il rilassamento: 80% DNA, 20% proteine;

 DNA organizzato a

formare 40-50 anse (~100 kb) che si dipartono da un core centrale proteico DNA plasmidico: contiene geni specifici (integrone e geni per la resistenza agli antibiotici) ma non indispensabili.

La complessità è correlabile alla compattezza dei genomi  Genomi compatti economicizzano il DNA ravvicinando le sequenze funzionali  Genomi poco compatti presentano grandi spazi non utilizzati fra le unità codificanti

E. coli S. cerevisiae D. melanogaster Uomo

Densità genica

(Geni/Mb)

Introni/gene 0 0.04 3 6

Seq. altamente

ripetute

o intersperse

Il cromosoma umano 21 è mostrato in grigio; una porzione del cromosoma 16 di topo è mostrato in blu; una porzione del cromosoma 17 in arancio e del cromosoma 10 in verde. I geni che codificano per proteine sono mostrati con dei punti di tre colori diversi corrispondenti ai colori dei tre cromosomi di topo. Le coppie di geni marcatori sono unite da una linea. Gli organismi PIU’ complessi hanno una MINORE densità genica. ALLA DIMINUZIONE DELLA DENSITÀ GENICA CONTRIBUISCONO:  L’aumento della dimensione dei geni (lunghezza genica e n° di introni e lunghezza delle sequenze regolative)  L’aumento delle sequenze intergeniche Nei genomi complessi vi sono componenti distinti:  DNA altamente ripetitivo o R (frequenza di ripetizione) >100, o Non porta quasi nessuna informazione, possiede bassa complessità  DNA moderatamente ripetitivo o 10

DNA ripetitivo

Se l’intero DNA viene digerito con una nucleasi di restrizione che non taglia a livello delle sequenze ripetute, i tratti delle ripetizioni prodotte avranno una composizione complessiva di basi molto diversa dal rimanente DNA DNA ripetuto in tandem (poco rappresentato nei procarioti) DNA centromerico ( o DNA satellite ) , ripetizioni di seq. da 5 a 200 bp Mini-satelliti (es.: DNA telomerico) ripetizioni di seq < 25 bp Micro-satelliti : ripetizioni anche di singole o di coppie di basi DNA ripetuto disperso nel genoma Trasposoni a DNA (elementi mobili) Retrotrasposoni (elementi mobili derivati da retrovirus) Buona parte del DNA dei genomi più grandi è non-codificante  I genomi complessi hanno da 10x a 30x più DNA di quello che sarebbe necessario per codificare tutti gli RNA o le proteine nell’organsimo.  Il DNA non-codificante include: o Introni nei geni o Gli elementi regolatori dei geni o Le copie multiple dei geni, tra cui gli pseudogeni o Le sequenze intergeniche o Il DNA ripetitivo

Componenti del Genoma umano

 I genomi umani hanno circa 3 miliardi di base pairs di DNA  Circa il 3% di esse codifica per proteine  Circa il 40-50% è ripetitivo, costituito da (retro)transposizione  Qual è la funzione del restante 50%?

Mutazioni e modificazioni delle basi alterano la sequenza del DNA

Le mutazioni sono cambiamenti di una o poche basi nella sequenza del DNA.
Le mutazioni avvengono spontaneamente (M. spontanee) o a causa di agenti esterni, mutageni (M. indotte).
Ogni cellula possiede una pletora di sistemi enzimatici responsabili della riparazione del DNA. È stato provato che la distruzione dei geni codificanti questi enzimi causa cancro etc.
Le mutazioni sono tuttavia un evento naturale. L’accumulo di mutazioni nei genomi di individui diversi della stessa specie contribuisce all’evoluzione.
Oltre alle mutazioni esistono altri tipi di modificazioni del DNA.

Classificazione delle mutazioni

 Mutazioni puntiformi o geniche : alterazione di un solo punto del DNA (mismatch), dunque in un solo gene  Mutazioni cromosomiche : alterazioni grossolane della struttura di un cromosoma  Mutazioni genomiche : alterazioni del numero di cromosomi presenti in un genoma

Classificazione delle mutazioni puntiformi

Chimica:  Transizioni (es.: da una Pur/Pyr ad un’altra Pur/Pyr)  Trasversioni (es.: da una Pur ad una Pyr, o viceversa) Funzionale (effetto sulla proteina codificata):  Sostituzioni : o Silenti (stesso aa) o Missenso (diverso aa) o Non senso (+ stop) o Readthrough (-stop)  Delezioni  Inserzioni Con la replicazione una mutazione puntiforme può essere fissata definitivamente nel genoma.

Mutazioni puntiformi del DNA

Reazioni chimiche responsabili di mutazioni :

Inserzione di una base errata durante la replicazione e tautomeria delle basi (1/10.000 basi incorporate)
Deamminazione: 100/cell/giorno
Depurinazione: 10.000/cell/giorno
Formazione di legami fra basi (dimeri di T)
Formazione di addotti (alchilazione). Fattori ambientali responsabili di danni al DNA :
Agenti mutageni chimici
Radiazioni: dagli UV ai raggi-X
Dieta e fumo: provocano stress ossidativo che direttamente o indirettamente provoca vari danni al DNA Le mutazioni, gli pseudogeni e lo splicing alternativo contribuiscono tutti alla diversità genetica. Le famiglie multigeniche sono costituite da geni identici o simili.
La famiglia dei geni degli istoni del riccio di mare. I geni per i cinque istoni sono raggruppati e ripetuti in tandem numerose volte
L’organizzazione dei geni della globina di topo. Questi geni differiscono lievemente l’uno dall’altro; essi codificano globine leggermente diverse le quali formano molecole di emoglobina con sottili differenze nella capacità di trasportare l’ossigeno.

Gli pseudogeni

Gli pseudogeni sono sequenze di DNA molto simili ai geni funzionali ma privi delle sequenze necessarie per la loro espressione.  Pseudogeni duplicati o non processati: derivano da eventi di duplicazione genica seguiti da mutazioni.  Pseudogeni processati: prodotti in seguito a processi di trascrizione inversa e mutazione. Negli eucarioti da un Gene possono essere prodotte più proteine diverse ( splicing alternativo )

Il codice è altamente degenerato e più codoni (sinonimi) specificano per un singolo amminoacido Generalmente, i codoni sinonimi presentano identiche basi nelle prime due posizioni. È un meccanismo che permette di ridurre al minimo gli errori di lettura e di minimizzare le mutazioni :  Codoni con una transizione nella 3a^ posizione codificano lo stesso aa (anche le trasversioni, nella metà dei casi, non cambieranno l’aa);  Codoni con Pyr in 2a^ posizione, spesso, codificano per aa idrofobici;  Codoni con Pur in 2a^ posizione, spesso producono aa polari;  Quando le prime due posizioni di un codone sono occupate da C o G qualunque sia la base in 3a^ posizione verrà sempre codificato lo stesso aa (prolina, alanina, arginina o glicina). Il codice è degenerato : la maggior parte degli aminoacidi sono codificati da più di un codone, ad eccezione della metionina e del triptofano.

Il Codice Genetico è (quasi) universale

Nei mitocondri: UGA codifica per Trp invece di essere uno stop (anche UGA e UGG formano una coppia di codoni); la Met interna è specificata sia da AUG che AUA. I codoni di stop sono 4: oltre UAA e UAG anche AGA e AGG. Ma quale codone corrisponde ad un certo amminoacido? Un primo indizio lo ottenne Marshall Nirenberg il quale dimostrò che l’omopolinucleotide poli(U) dirigeva la sintesi della polifenilalanina.  Un polinucleotide omogeneo (A)n può codificare per un solo polipeptide costituito da un solo aminoacido;  Una ripetizione di una sequenza di-nucleotidica (AB)n produce un prodotto di aminoacidi alternati;  Una ripetizione di un trimero (ABC)n porta alla produzione simultanea di tre diversi polipeptidi omogenei. Questi risultati permisero di definire che il codice genetico è formato da triplette e non ha punteggiatura.  Crick e Sydney Brenner arrivarono contemporaneamente, ad ottenere le stesse risposte mediante esperimenti genetici con il batteriofago.  Inserzioni o delezioni di una o due paia basi nel genoma producevano fagi mutanti poiché lo schema di lettura di un gene veniva slittato  Inserzioni o delezioni ravvicinate di tre basi ottenevano un prodotto molto simile al fenotipo wild-type.

Il GENE

Proprietà fondamentali

 I Geni sono unità ereditabili , arrangiate linearmente lungo i cromosomi.  L’analisi di complementazione di moltissimi mutanti e le tecniche genetiche, specie nei microorganismi, hanno permesso di definire dei geni che determinano una funzione biologica anche nella loro struttura fine.  Il gene è la unità più piccola , ma funzionalmente autonoma, in cui è organizzato il genoma.  Il gene attivo da origine ad un prodotto diffusibile (Trascritto primario da cui origina, non sempre, la proteina).  Ci sono differenze fra l’organizzazione dei geni eucariotici e procariotici ( operoni ).

La struttura generale di un gene codificante una proteina

 Regione codificante che dirige la sintesi del rispettivo polipeptide;  TSS : sito di inizio della trascrizione;  UTR : due regioni, presenti nell’mRNA ai due lati della regione codificante, che non vengono tradotte in proteine;  Promotore , una sequenza a monte della regione TTS, utilizzato come piattaforma di assemblaggio per la RNA polimerasi.

I geni contengono segnali regolatorii

 Il gene contiene la unità trascrizionale , che è il tratto di DNA copiato in RNA (trascritto primario).  Il gene contiene inoltre: o dei segnali di inizio della trascrizione, p.e. i promotori o dei segnali per regolare la quantità, l’efficacia della trascrizione o dei segnali per fermare la trascrizione, p.e. i terminatori I Geni procariotici sono continui; I Geni eucariotici discontinui. I geni eucariotici tipicamente contengono sequenze intersperse non codificanti La scioccante scoperta di Phillip Sharp e Richard Roberts nel 1977, fu che l’mRNA del citoplasma delle cellule eucariotiche non era necessariamente la copia precisa dei geni presenti nel DNA nucleare. All’interno dei geni, vi sono dei tratti di sequenze di DNA che non hanno una controparte nell’mRNA.

Che cos’è la Bioinformatica?

È una scienza multidisciplinare che integra conoscenze informatiche, chimiche, matematiche, biologiche allo scopo di collezionare ed elaborare sistematicamente ogni informazione per ottenere la massima resa dalle ricerche sperimentali ma anche per sviluppare queste ultime in modo più mirato. Grazie alla bioinformatica è possibile avere uno sguardo d’insieme su tutte le conoscenze scientifiche e da questo partire per ulteriori osservazioni sia mediante metodi informatici, sia mediante metodi sperimentali.

Distinzione dall'informatica medica

La bioinformatica è distinta dall'informatica medica: lo studio interdisciplinare della progettazione, sviluppo, adozione e applicazione di innovazioni basate sull'IT nell'erogazione, gestione e pianificazione dei servizi sanitari. Da qualche parte tra le due discipline si trova l' informatica biomedica , il campo interdisciplinare che studia e persegue l'uso efficace di dati, informazioni e conoscenze biomedici per l'indagine scientifica, la risoluzione dei problemi e il processo decisionale, motivato dagli sforzi per migliorare la salute umana. Il termine “bioinformatica” è stato coniato da Paulien Hogeweg e Ben Hesper per descrivere “lo studio dei processi informatici nei sistemi biotecnologici”. La bioinformatica è diversa dalla bioinformatica medica. Chi si occupa di bioinformatica può appartenere a due categorie principali:  Sviluppatori : Coloro che si occupano di creare nuovi strumenti informatici per l’analisi scientifica;  Utenti : Coloro che utilizzano gli strumenti bioinformatici per ottenere dati e da questi partire per l’analisi sperimentale vera e propria. → Il programma che si utilizza può definirsi il metodo sperimentale della bioinformatica; → Le banche dati (dataset – raccolta di dati in modo ordinato) possono definirsi il materiale sperimentale utilizzato dalla bioinformatica. Per usare la bioinformatica non è necessario essere un bioinformatico perché qualunque programma che inseriamo in una banca dati (Tools: programmi) ci darà sempre un risultato, il problema è che noi dobbiamo trovare il risultato giusto. Le scienze della vita molecolare sono diventate sempre più dati guidati e dipendenti dalla condivisione dei dati attraverso database ad accesso aperto. Questo vale tanto per le scienze applicate quanto per la ricerca fondamentale. Inoltre, non è necessario essere un bioinformatico per utilizzare banche dati, metodi e strumenti bioinformatici.

Tuttavia, poiché la generazione di grandi set di dati diventa sempre più centrale per la ricerca biomedica, diventa sempre più necessario per ogni scienziato della vita molecolare capire cosa può (e, soprattutto, cosa non può) essere ottenuto utilizzando la bioinformatica.

Infrastrutture principali

EMBNet , nata nel 1988 come rete europea a supporto della ricerca bio- molecolare, oggi conta 41 nodi nazionali in paesi europei ed extraeuropei (in Italia il nodo è a Bari); APBioNet (Asian-Pacific Biologic Network), recentemente gemellata con EMBNet, organizzazione analoga. Oggi i due database primari più importati sono nei centri:  EBI (Cambridge, UK): EMBL data-library  NCBI (USA): GenBank  1960 - 1970s: Margareth Dayhoff (PIR, Risorse delle Informazioni delle Proteine) colleziona tutte le sequenze disponibili delle proteine nel ATLAS delle sequenze e strutture delle proteien;  1972 - 198 0: Distribuzione elettronica dell’ATLAS;  1982: L’inizio del database della sequenza elettronica del DNA nel EMBL (Laboratorio Molecolare Biologico Europeo) – Heidelberg  Soon after GenBank, un’organizzazione simile al NCBI (Centro Nazione per le Informazioni Biotecnologiche) e DDBJ (Databse del DNA del Giappone) GenBank, EMBL, DDBJ sono i primi database dei nucleotidi.  1988: Le banche sono d’accordo per collaborare;  Devono avere lo stesso format per collaborare;  Commissioni diretti ai ricercatori → Richiesta per la pubblicazione del Giornale;  Aggiornamento solo ad entrata del DB;  I dati vengono scambiati nelle basi giornalmente;  Sequence submission procedure: wEBIn at EMBL & BankIt at GenBank sono via Web. Sequin è un software scaricabile.

Database di proteine primarie (di archivio)

 Anni '80: Amos Bairoch (Ginevra) ha convertito l'Atlas PIR in un formato simile a EMBL nt DB.  1986 PIR viene ribattezzato Swiss-Prot. Collabora e scambia dati con EMBL  Swiss-Prot contiene solo sequenze proteiche annotate. È stato unito a TrEMBL (translation of EMBL nucleotide sequences), costituito da voci annotate computazionalmente derivate dalla traduzione di tutte le sequenze codificanti (CDS) trovate in E/G/D

Banche dati primarie vs Banche dati secondarie

 Il DB primario contiene risultati sperimentali (con qualche interpretazione)  Nel DB secondario troviamo recensioni curate (annotazioni)  I DB primari sono ridondanti NCBI: http://www.ncbi.nlm.nih.gov/ EBI: http://www.ebi.ac.uk/

Queste banche dati sfruttano internet

 I database biologici hanno spesso un'interfaccia web, che consente all'utente di inviare query al database.  È possibile accedere ad alcuni database da server Web diversi, ognuno dei quali offre un'interfaccia diversa.

Com’è organizzato un database biologico?

L’oggetto principale è la ENTRY , un’unità riconoscibile grazie ad un identificatore univoco, che possiede una descrizione organizzata in campi standardizzati riconoscibili grazie ad HEADERS univoci nella banca dati. Es: Identificatore …… Autore …… Data …… Ogni banca dati presenta 2 versioni delle entries:  Flat-file : un file di testo semplice, formattato, non interattivo;  HTML (o XML): Interattivo, di facile consultazione. Un file può essere suddiviso in 3 principali porzioni:

La parte della testa (The header, cioè il titolo), contiene il contenuto del record;
Le caratteristiche (Feature) di quel particolare oggetto/sequenza;
La sequenza vera e propria. Il segno che indica la fine della sequenza è “//” e il rigo successivo sarà il primo della nuova entry. L’header è il più specifico database. Nella prima linea c’è:  Il nome;  La lunghezza della sequenza;  Il tipo di molecola (La natura biologica della molecola);  La divisione del codice;  La data dell’immissione (solo nel GenBank/DDBJ).

Ci possono essere degli aggiornamenti dell’Header:  La data dell’immissione e l’ultimo aggiornamento della scheda sono riportate nell’EMBL (versione numerica);  Successivamente c’è la definizione delle righe.  L’Accession Numebr è il numero che deve essere citato nella pubblicazione ed è sempre associato con la sua scheda.  Le informazioni tassonomiche. Nel EMBL OS (Risorsa dell’Organismo) e OC (Classificazione dell’Organismo). Nel GenBank c’è la Risorsa e l’Organismo.  La referenza. Alla fine, deve essere inclusa la referenza o la citazione; The Feature Table – Genbank e EMBL  La tavola delle caratteristiche è una rappresentazione diretta dell’informazione biologica nel file.

Utilizzazione delle Banche Dati

 Come prendere le informazioni dalle banche dati: o Sommario: o Sfogliare: Possiamo cercare tutto quello che vogliamo o Ricerca: Stiamo cercando un’informazione specifica  Ricerca delle Banche dati: o Dobbiamo avere una chiave degli elementi delle banche dati.  Nome del gene;  Sequenza del gene;  Altre informazioni.

Ricerca delle sequenze delle Banche Dati

 Inizia dalla sequenza, trova informazioni a riguardo  Molti tipi di sequenze di input o Potrebbe essere una sequenza di aminoacidi o nucleotidi o Sequenza genomica o mRNA/cDNA o proteina o Sequenze complete o frammentarie  Le corrispondenze esatte sono rare (anche poco interessanti in molti casi), quindi spesso l'obiettivo è recuperare una serie di sequenze simili. o Possono essere interessanti differenze sia piccole (mutazioni) che grandi (necessarie per la funzione) all'interno di “simili”.

Ricerca

Forse il tipo più semplice di esperimento di bioinformatica che puoi eseguire è cercare nei database pubblici informazioni su un gene o una proteina specifici. Puoi cercare in un gran numero di database pubblici contemporaneamente, senza dover sapere in anticipo quale database è più rilevante per te. L'esecuzione di una semplice ricerca non è necessariamente un esperimento e quindi non necessita di un controllo. (es.: tutte le sequenze proteiche con la parola chiave 'globina') Tuttavia, non appena usi i risultati di una ricerca per rispondere a una domanda biologica, diventa un esperimento. (es.: quali proteine chinasi sono i) in una particolare via di reazione e ii) sono sovra regolate in un particolare stato di malattia). Ora dovresti aggiungere alcuni controlli (es.: controlla se i tuoi termini di ricerca corrispondono ad altri percorsi non correlati).

Confrontando

Il confronto di due o più elementi nei dati biologici ci consente di esaminare quanto strettamente correlati potrebbero essere, in termini di funzione, evoluzione o entrambi. Il tipo di confronto più utilizzato in bioinformatica è il confronto di sequenze per stabilire quanto una sequenza di nucleotidi o proteine sia strettamente correlata ad altre nei database pubblici. Questo viene fatto allineando le sequenze – riordinandole per trovare la migliore corrispondenza possibile – e prende in considerazione inserimenti, cancellazioni e sostituzioni che possono essersi verificati dalla divergenza da un teorico antenato comune. Se venisse trovata una corrispondenza, potremmo essere in grado di dedurre qualcosa sulla relazione tra le sequenze.

Modellazione

La modellazione strutturale può essere utilizzata per generare ipotesi sulla struttura (e quindi per implicare cose sulla funzione biochimica) delle macromolecole. La modellizzazione dei processi è un aspetto importante della biologia dei sistemi.

Integrando

L'integrazione dei dati è una sfida di vecchia data per la bioinformatica, ma può essere un mezzo estremamente potente per raccogliere prove a favore o contro un'ipotesi. Ad esempio, l'integrazione di dati da esperimenti di trascrittomica, proteomica e metabolomica può aiutare a costruire prove che un particolare percorso è coinvolto in una malattia o nella resistenza a un farmaco. Come con la modellazione dei sistemi, l'integrazione dei dati ti aiuta a generare ipotesi , ma deve essere combinata con approcci sperimentali per testare la tua ipotesi. Questi sono i veri controlli.

I vari tipi di dati:

 NCBI contiene 4 dati elementi: o Citazioni bibliografiche (la parte della biblioteca); o Dati sulle sequenze; o Dati sulle strutture; o Dati medici e scientifici (approccio con il pubblico/con il qualunque paziente o medico che vuole avere delle informazioni più specifiche su una malattia/patologia)

Tipi di banche dati:

 Dati di archivio o primari o Testo: PubMed o Sequenza del DNA: GenBank/EMBL/DDBJ o Sequenze/strutture proteiche: PDB (RCSB)  Dati curati o elaborati o Sequenze: RefSeq (DNA, mRNA, proteine, ecc.) o Sequenze e strutture proteiche: MMDB o Mappe degli organismi: Entrez Genomes (umano, topo, lievito, ecc.) o Geni: LocusLink (loci), Homologene (orthologs), OMIM (malattia)  Database specializzati o Organismo: mappe in Entrez Genomes (umano, topo, lievito, ecc.) o Funzione: Sequenze in UniVec (vettori), UniGene (geni) o Metodi di sequenziamento: dbEST, dbGSS, dbSTS, HTG