BANCHE DATI

Le banche dati vanno ben progettate e sono come contenitori costruiti per immagazzinare dati che vengono da vari esperimenti o

letteratura scientifica. Ci sono banche dati dedicate a generiche sequenze di acidi nucleici, a sequenze di proteine, a strutture 3D, a

promotori, tRNA, sequenze mitocondriali, articoli, motivi funzionali ecc.. Una banca dati è costituita da entries e ogni entry di una

banca dati contiene informazioni sull’oggetto principale della banca dati insieme a tutte le altre informazioni che si vogliono

considerare come classificanti l’oggetto stesso. Una entry di una banca dati di sequenze nucleotidiche potrebbe contenere, oltre

alla sequenza di una molecola di DNA, il nome dell’organismo cui la sequenza appartiene, la lista degli articoli che riportano dati

su quella sequenza, le caratteristiche funzionali e ogni altra informazione ritenuta di interesse. Fondamentalmente una entry è una

scheda vuota che viene riempita con le informazioni della proteina che viene inserita.

Accession number: Indicatore unico che viene assegnato nel momento della sottomissione dei dati. Dimostra che è stata fatta la

sottomissione della sequenza e quella sequenza può essere pubblicata in letteratura scientifica. In numero della prima

sottomissione è detto primario. La maggior parte delle banche dati di interesse biologico è disponibile (o anche disponibile) in

formato flat-file ovvero in un formato di semplice testo. Il formato flat-file consente un’immediata lettura del contenuto della

banca dati, eventualmente anche mediante l’uso di programmi per calcolatore sviluppati allo scopo. È possibile navigare tra le

banche dati differenti grazie ai passaggi crociati; è molto importante che ci siano delle relazioni ( riferimenti crociati o cross-

references) tra banche dati che trattano informazioni riguardanti gli stessi oggetti o oggetti correlati. I riferimenti crociati rendono

possibili i passaggi di informazione tra banche dati diverse e favoriscono la loro integrazione. Ma ancora più importante è che i

dati contenuti nelle varie banche dati vengano organizzati in formati che favoriscano di per sè lo scambio dei dati.

Operatori logici: servono per evitare di essere sommersi dai dati. È necessario, dunque, per poter fare ricerche più rapide. È

molto utile la conoscenza degli operatori booleani (da George Boole, matematico inglese dell’800) che consentono ricerche che

soddisfino più criteri. Gli operatori booleani più usati sono OR, AND e NOT. AND permette di fare intersezioni, OR permette le

somme e NOT permette di cercare per esclusione. Cercando nella banca dati innanzitutto devo cercare in inglese, poi devo

utilizzare la logica booleana, ma affinchè la mia ricerca sia più specifica devo effettuare ricerche di determinate parole-chiave che

debbano trovarsi in specifici campi, corrispondono alle varie parti dell'entry identificate nell’header, ad esempio, si può restringere

la ricerca della parola whale al solo campo relativo all’organismo nel cui proteoma si effettua la ricerca.

BANCHE DATI PRIMARIE E SECONDARIE

Ci sono banche dati primarie che contengono acidi nucleici (DNA e RNA). Queste banche sono tre: una giapponese (DDBJ), una

Europea (EMBL) e una Americana (GEN BANK) e raccolgono dati dal proprio intorno, dopo che la sequenza è stata controllata

e accertata viene condivisa con le altre banche. Ci sono miliardi di basi e centinaia di milioni di sequenze. Quando nella ricerca

non viene specificato l’operatore booleano, viene sottointeso dal programma come AND.

Banca dati secondaria: contiene sequenze proteiche UNIPROT (composta da swiss prot= è la “treccani” e contiene decine di

milioni di sequenze e dalla TrEMBL=translated EMBL) la differenza tra queste due è che le singole sequenze sono annotate

manualmente in swiss prot mentre TrEMBL ha l’aggiornamento automatico. Le banche dati di sequenze proteiche contengono sia

dati ottenuti direttamente dalla sequenza di proteine, che dalla traduzione di sequenze geniche di cui sia stata individuata o

predetta la funzione. Le sequenze nucleotidiche devono essere trascritte in FASTA. La sequenza è scritta senza spazi, nè numeri,

nè a capo e sono costituite più o meno da 60 caratteri per riga.

PUBMED

Pubmed è una banca dati unica per motivi di copyright. Una parte della conoscenza acquisita nel corso della storia della scienza

sta nei libri, un’altra parte sta nelle review che citano e riassumono gli articoli più importanti degli ultimi due anni, mentre tutta la

parte nuova, i risultati recenti si trovano solo negli articoli, che arrivano nelle biblioteche, agli abbonati e in gran parte sono

disponibili in rete, gratis o a pagamento. In Pubmed si possono trovare articoli, rewiev e libri (a pagamento e non) di interesse

biomedico. È gestito da NCBI. Inizialmente la banca più importante era Medline sviluppata dalla National Library of Medicine, è

la più completa banca dati di bibliografia biomedica disponibile al mondo (contiene dati su milioni di articoli, successivamente

l’NCBI ha incorporato Medline in Entrez dando vita così a Pubmed e a Pubmed central. Si possono inserire parole chiave,

utilizzando sempre la logica booleana. Dopo aver effettuato una ricerca, la prima cosa a uscire è il titolo, poi ci sono gli autori

(riportati prima per cognome e poi per nome). Si consiglia di fare tutte le ricerche col cognome completo e l’iniziale del nome,

questo perchè si è cominciato a inserire il nome completo solo dagli anni 2000 quindi se si cerca un autore con nome e cognome

completo usciranno solo gli articoli pubblicati dopo il 2000 e non quelli precedenti. Il primo autore è quello che fa principalmente

tutto il lavoro, l’ultimo nome è il capo mentre quelli che stanno in mezzo sono quelli che hanno contribuito al lavoro. Estremi

della referenza: nome della rivista e data di pubblicazione, le rewiev vanno citate con nome di autore e data di pubblicazione.

Codice PMID: codice identificativo di Pubmed, è un codice identificativo unico. Quando, una volta impostata la ricerca si va a

seguire una singola entry non si arriva subito al lavoro ma si arriva a una pagina intermedia dove c’è la possibilità di fare un

approfondimento perchè vengono riportati tutti i dati fondamentali della pagina precedente e l’abstract. L’articolo è disponibile in

formato HTML. È importante fare la ricerca per campi, fare ricerca generica è un errore perchè dopo aver semplicemente cercato

un argomento è probabile che escano migliaia di entries. Le ricerche fatte possono essere composte e i risultati delle ricerche

composte possono a loro volta ricorsivamente diventare elementi di nuove ricerche.

EUROPE PMC

Sintesi di Bioinformatica, Sintesi del corso di Bioinformatica

Documenti correlati

Anteprima parziale del testo

Scarica Sintesi di Bioinformatica e più Sintesi del corso in PDF di Bioinformatica solo su Docsity!

BANCHE DATI

ELEMENTI DI INFORMATICA

SIMILARITÀ E OMOLOGIA

METODI ESAUSTIVI PER L’ALLINEAMENTO DI SEQUENZE

METODI EURISTICI PER L’ALLINEAMENTO DI SEQUENZE

ALLINEAMENTI MULTIPLI DI SEQUENZE

RICERCA DI PATTERN E MOTIVI FUNZIONALI

VP ×VN − FP × FN

[( VN + FN ) ( VN + FP ) ( VP + FN ) ( VP + FP )]

CURVA ROC

ELEMENTI DI GENOMICA

ANALISI STRUTTURALE DI UNA PROTEINA

METODI COMPUTAZIONALI

MODELLING PER OMOLOGIA:

THREADING O FOLD RECOGNITION

CASP: Critical Assessment of Protein Structure Prediction

VALUTAZIONE DELLA QUALITÀ DI UN MODELLO

INTERAZIONE TRA PROTEINE

METODI BIOINFORMATICI PER LO STUDIO DELLE INTERAZIONI PROTEINA PROTEINA

METODO DEI PROFILI FILOGENETICI