Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Bioinformatica modulo 1: Prof Russo, Appunti di Bioinformatica

Bioinformatica anno 2024, appunti

Tipologia: Appunti

2023/2024

In vendita dal 29/03/2025

clelia.dagostini
clelia.dagostini 🇮🇹

3.8

(10)

16 documenti

1 / 71

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Cos'è
la
bioinformatica:
*
Definizione
del
National
Institutes
of
Heath
(NIH):
“Research,
development
or
application
of
computational
tools
and
approaches
for
expanding
the
use
of
biological,
medical,
behavioral,
or
health,
including
those
to
acquire,
store,
organize,
analyze,
or
visualize
such
data”
*
Definizione
del
vostro
libro
di
testo:
“Disciplina
che
ha
l'obiettivo
di
sviluppare
e
applicare
,
misurata
adesempio
tramite
il
numero
di
transistor
per
quadruplica
quindi
ogni
3
anni).
*
UNIX
è
un
sistema
operativo
sviluppato
originariamente
dai
Bell
Laboratories
negli
anni
'60
e
‘70.
*
È
stato
il
primo
sistema:
|
(directories)
*
Nel
1991
Linus
Torvalds
crea
una
versione
modificata
di
UNIX,
oggi
chiamata
GNU/Linux
Sistema
operativo
«open
source»,
licenza
gratuita
che
ne
concede
lo
studio,
l'utilizzo,
la
modifica
e
la
redistribuzione.
*
GNU/Linux
è
alla
base
di
tante
«distribuzioni»
alternative
ad
es.
Ubuntu,
Fedora,
Debian...
Terminale
detto
anche
figa
di
comando,
console,
prompt
dei
comandi,
0
shell
*
La shell
è
un
interfaccia
utente/elaboratore
di
tipo
testuale:
*
L'utente
digita
dei
comandi
come
testo
*
Viene
data
una
risposta
=
Una
delle
più
usate
shell,
versione
evoluta
della
shell
standard
di
UNIX
è
Bash.
BASH
*
Bash
consente
la
«redirezione»
di
input
e
output:
Di
default
questi
sono
righe
di
testo
scritte
(standard
input)
e
stampate
(standard
output)
sulla
shell
__
_
rr———————————€@mÈ
*
Bash
mette
a
disposizione
un
semplice
linguaggio
di
scripting
nativo
che
permette
di
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47

Anteprima parziale del testo

Scarica Bioinformatica modulo 1: Prof Russo e più Appunti in PDF di Bioinformatica solo su Docsity!

Cos'è labioinformatica:

  • Definizione del National Institutes of Heath (NIH): “Research, development or application of computational tools and approaches for expanding the use of biological, medical, behavioral, or health, including those to acquire, store, organize, analyze, or visualize such data”

  • Definizione del vostro libro di testo: “Disciplina che ha l'obiettivo di sviluppare e applicare

, misurata adesempio tramite il numero di transistor per quadruplica quindi ogni 3 anni).

* UNIX è un sistema operativo sviluppato originariamente dai Bell Laboratories negli anni '

e ‘70.

  • È stato il primo sistema: |

(directories)

  • Nel 1991 Linus Torvalds crea una versione modificata di UNIX, oggi chiamata GNU/Linux *» Sistema operativo «open source», licenza gratuita che ne concede lo studio, l'utilizzo, la modifica e la redistribuzione.
  • GNU/Linux è alla base di tante «distribuzioni» alternative ad es. Ubuntu, Fedora, Debian...

Terminale detto anche figa di comando, console, prompt dei comandi, 0 shell

  • La shell è un interfaccia utente/elaboratore di tipo testuale:

  • L'utente digita dei comandi come testo

  • Viene data una risposta = Una delle più usate shell, versione evoluta della shell standard di UNIX è Bash.

BASH

  • Bash consente la «redirezione» di input e output: Di default questi sono righe di testo scritte (standard input) e stampate (standard output) sulla shell __ _ rr———————————€@mÈ

  • Bash mette a disposizione un semplice linguaggio di scripting nativo che permette di

svolgere compiti più complessi, non solo raccogliendo in uno script una serie di comandi, ma anche utilizzando variabili, funzioni e strutture di controllo di flusso.

Comandi base di Bash

O come output stampa su schermo testo

. i asd su schermo il

  • —hostname: Stampa su Peo E E caso di CoCalcil nome della macchina virtuale creata per voi) CDS scemo Tenco de gni e corel) presenta caio

» &Wd (Present Working Directory): Stampa su schermo il percorso assoluto alla -> Il percorso assoluto inizia dalla cartella «root», ovvero / Se digitate solo il comando, tornate nella cartella home di default (/home/nomeutente/)

  • Se digitate cd .., andrete nella cartella superiore
  • Se digitate cd nomecartella, entrerete in quella cartella. Per esempio: Se la cartella in cui volete entrare è «lontana», potete:* Digitare il percorso assoluto. Per esempio: cd /home/user/bla/bla/ble/bli/blo/blu/
  • Navigare su è giù per le cartelle. Per esempio: cd ../../../bli/blo/blu/Questi ultimi due esempi non funzioneranno se prima non creiamo una struttura di cartelle nostra Quando non sai dove ti trovi, digita cd
  • mkdir - make directory: Commando essenziale che crea una cartellacon un nome a nostra scelta, mkdir cartella, Questo comando creerà una cartella (chiamata «cartella») nella posizione in cui vi trovate.Come per il commando cd, potete creare cartelle utilizzando i percorsi assoluti e..Esempio: mkdir mkdir /home/user/ cartella../user/cartellaQuesti comandi dovrebbero dare un risultato identico al primo (se lanciati tutti dalla posizione default).Se una cartella con lo stesso nome esiste già, il comando restituisce un errore.

posizione in cui vi trovate. Come per mkdir e cd si possono indicare i vari percorsi. Un altro modo per creare un file è il REINDERIZZAMENTO dell'output.Con il comando echo abbiamo visto come stampare su schermo delle righe di testo.Se vogliamo che il risultato di echo venga salvato in un file dobbiamo reindirizzare l'output utilizzando il comando >echo "Hello World!" > saluti.txt Creerà il file saluti.txt e echo Hello Imola!" >> saluti.txt Aggiunge una nuova riga al file. ATTENZIONE: se usate > ARE 0 Ren file precedente!!

Ù (FREEZER /percorso/nuovo/file=Crea un nuovo file in una nuova posizione. mv /percorso/vecchio/file /percorso/nuovo/file =Sposta un file in una nuova posizione/Permette di rinominare un file!iNB. Se non scrivete ilpercorso è perché l'oggetto è o è destinato alla cartella in cui siete.Se volete cp su una cartella scrivete cp -r/percorso/vecchio/file /percorso/nuovo/file

  • SHOSTTYPE: il tipo di sistema operativo.

* SUSER: il nome utente.

* S$SHELL: la shell che si sta usando (solitamente /bin/bash)

* SHOME: il percorso home (e.g. /home/user)

‘$

Le strutture di controllo di flusso In informatica le strutture di controllo di flusso sono dei costrutti sintattici la cui semantica afferisce al controllo del flusso di esecuzione di un programma, ovvero servono a specificare se, quando, in quale ordine e quante volte devono essere eseguite le istruzioni che compongono il codice sorgente.Le tre strutture fondamentali (e che interessano a noi) sono 3:

  • SEQUENZA: semplice successione delle istruzioni.
  • ITERAZIONE: Le strutture di controllo "iterative" consentono di specificare che una data istruzione o un Esse vengono anche dette cicli. Il più semplice è il "ciclo for". : : consentono di Sono perciò anche dette strutture condizionali. 2 forme: if-then e if-then-else.

Il ciclo for Il ciclo for è indicato quando il modo più naturale per esprimere la condizione di permanenza in un ciclo consiste nello specificare quante volte debbano essere ripetuti l'istruzione o il blocco controllati dal ciclo. La struttura base di un ciclo for in unix è la seguente:

foriinlista di oggetti do 2. comandi > verno ele done Per ogni oggetto in "lista di oggetti" verrà creata una variabile i (il PC gli assegna un valore in base al comando che gli diamo) e verrà eseguito il blocco di comandi.La lista può essere sia una serie di nomi o anche il risultato di un comando.

Esempi:

foriin do echo "Ciao!" done Questo comando stamperà su schermo 4 volte "Ciao!"

>foriin $(catnomi.txt)

do

>echo $i

done Questo comando stamperà su schermo ogni singola riga di nomi.txt (praticamente come

lanciare cat...)

>for i in $S(Is *.txt)

do

>echo Si

>cat Si

done Questo comando stamperà su schermo il nome e a seguire il contenuto di tutti i file che finiscono con ".txt"

a i cicli possono essere ovviamente "nested": I comandi all'interno di un ciclo possono a

loro volta essere uno o più cicli.

Con gli strumenti bioinformatici si possono analizzare dati biologici:

  • Dati che contengono conoscenze pregresse (dati di "riferimento", o reference) - FASTA, GTF/GFF, BED
  • Dati ottenuti sperimentalmente (solitamente risultati del sequenziamento) - FASTQ
  • Dati generati dall'analisi, il cui formato dipende dall'analisi stessa:
  • Risultati di allineamento - SAM/BAM
  • Risultati di variant calling - VCF
  • Risultati di quantificazione di segnale - BEDGRAPH, BigWig, TXT
  • Risultati in formati del primo punto - FASTA, GFF, BED

denominato FASTA

  • È un formato di file ditesto.
  • Le x estensioni tipiche di questo formato sono: .fasta,.fas,.fa,.fna,.ffn,.faa,,mpfa,.frn
  • E il formato standard dei dati di sequenza, siano essi proteine o acidi nucleici.
  • Può contenere dati di più sequenze.
  • È essenzialmente costituito de2 righe per sequenza (ma molti file possono contenere sequenze a Ni

NG 008679.,1:5001-38170 Homo sapiens paired box 6 (PAX6) ACCCTCOTTTTCTTATCATTGACATTTARACTCTGGGGCAGGTCCTCGCGTAGAACGCGGCTGTCAGATCOT CCACTTOCCCTECCGAGCGGCGGTGAGAAGTGTGGGAACCEGCGCTECCAGGCTCACCTECCTOCCCGO COTCCECTOECCAGGTAACCGCCOGGGCTOECEGCOCCGGCCCEGCTOGEGGGCCCECGGGGCCTOTOCECTE

] sifast0)

  • Questo formato è una versione "estesa" del FASTA.
  • È un formato di file ditesto.
  • Le estensioni tipiche di questo formato sono: .fastq,.fq

chr7 127471196 127472363 Posl 0 chr7 127472363 127473530 Pos2 0 Chromosome ID —»> | chr7 127473530 127474697 Pos3 0

-.

End location, î [ict Score Phase (reading frame)

e più completa, a 12 colonne(GED12)) solitamente utilizzataper rappresentare

  • thickStart — la posizione iniziale in cui la regione verrà visualizzata più "spessa"

(solitamente l'inizio dellasequenza codificante).

*thickEnd — la posizione finale della regione più "spessa" (la fine della sequenza

codificante).

  • itemRgb — tre valori numerici in formato Red,Green,Blue, 0 RGB (es. 255,0,0) che definiranno il colore dellafeature.

* blockCount — il numero di "blocchi" della feature (solitamente il numero di esoni).

  • blockSizes — una lista separate da "," con le dimensioni di suddetti "blocchi".
  • blockStarts — una lista separata da "/' con le posizioni di inizio di suddetti blocchi relative a "Start".
  • In questo modo è possibile distinguere visivamente esoni, introni, sequenze codificanti e UTRSs.

* Solitamente |formati più usati sono | primi 2 (BED3 e BED6). FASTA =

Start location

celereSearch verso Cyiobend o” "O^ -{354»,^ gle"^ "di^ |^ DI^ DIRTI FAST = 4

pedD3-6- Zero_Besed_Coondinate

GTF/GFF =G

Il file GTF/GFF

  • Acronimi per General Feature Format e General Transfer Format. SAM = AA
  • È un formato di fileditesto,ditipo tabulare.
  • Le estensioni tipiche di questo formato sono: .gff,.gtf.
  • È solitamente utilizzato contenere le annotazioni dei geni (Ma può essere usato per altre

features).

  • II file è costituito dalle seguenti colonne:
  • seqname -— nome del cromosoma.
  • source — nome del programma o del database che ha generato il dato. -

* feature — tipo di dato (gene, porzione del gene, etc.).

  • start — posizione iniziale
  • end — posizione finale
  • score — simile al BED.
  • strand — simile al BED.
  • frame — Valore tra '0','1' or '2'. '0' significa che la prima base dell'oggetto corrisponde alla

prima base del codon, '1' alla seconda e '2' alla terza.

  • attribute — una lista di informazioni addizionali separate da ";".

I file Gama

  • Acronimi per Sequence Alignment Map e Binary Alignment Map. +Èun formato difileditesto,ditipo tabulare.

  • Le estensioni tipiche di questo formato sono: .sam,.bam.

  • È strutturato in mo minimo spazio (solitamente
  • Il file può iniziare con in cosiddetto "header", ovvero delle righe che iniziano con "@", che

aa una serie di informazioni sul o i neamento sull'allineatore, etc.

ntenere più informazioni possibili sugli allineamenti usando il

meeeePe tti Col Field Type Regexp/Range Brief description 1 QNAME String ([!-?A-7]{1,254} Query template NAME 2 FLAG Int [0, 2° — 1] bitwise FLAG 3 RNAME String \sl[rname:®=] [:rame:] Reference sequence NAME!! 4 POS Int [0, 2° — 1] l-based leftmost mapping POSition 5 MAPQ Int (0, 2° — 1] MAPping Quality 6 CIGAR String *I([0-9]+[MIDNSHP=X])+ CIGAR string 7 RNEXT String *|=|{[:rname:*=] [:rname:]} Reference name of the mate/next read 8 PNEXT Int (o, 25! — 1) Position of the mate/next read 9 TLEN Int (-22+1,2°-1] observed Template LENgth 10 _SEQ String *I[A-Za-2=.]+ segment SEQuence 11 _QUAL String ([1-7]+ ASCII of Phred-scaled base QUALity+

  • | campi engono ricavati dal FASTQ.
  • Il campo una combinazione di bit ognuno corrispondente a una specifica informazione «Il valore è dato dalla somma dei bit, se la descrizione è rispettata.La comodità del bit è data dal fatto che a ogni valore di FLAG corrisponde un pattern di "descrizioni" univoco. Utile per filtrare gli allineamenti.

2, FLAG: Codice numerico ch Questa colonna è essenziale per ottenere in seguito, tramite software appropriati come samtoolsflagstat, statistiche sulla qualità dell'allinmeamento. Ad esempio, un valore FLAG pari a 4 indica che la suddetta lettura non è stata mappata in quanto non è stato trovato alcun punto sul genoma con cui allinearsi. Si consideri che dal punto di vista dello studio delle varianti strutturali queste letture non mappate potrebbero essere molto utili, infatti sono proprio queste che solitamente contengono il maggior numero di polimorfismi rispetto al riferimento, che impediscono appunto l'allineamento

rRNA tRNA snRNA snoRNA

fe (^) è diad = i tii è E v^ @ tr Ribosome Linker between mRNA Catalyze the splici Altering the tRNA,rRNA and synthesis)^ component (protein^ andacid^ thechain^ growing amino^ of^ cea^ ha^ RNAimprinting^ editing^ and^ genome

miRNA circRNA piwi RNA scaRNA

All kx è xo T I

Targeted cleavage of Regulate gene expression,^ Guide^ piwi-interacting^ protein to^ RNA^ metabolism^ and mRNA expression) (regulate gene^ MIRNAsponging^ decoys and^ protein^ cleave target RNA,heterochromatin assembly^ promote and formation^ of RNPs methylate DNA

cono trascritti dalla RNA poll. | (^) e alcuni non coding sono trascritti dalla RNA pol Ill.

A differenza del genoma di una cellula, il trascrittoma (eucariotico) è molto più complesso.Le due principali "fonti" di complessità sono:

  • Lo splicing alternativo
  • L'RNA editing: modificazione chimica dell'mRNA, presente in trascritti di eucarioti, mitocondri e cloroplasti

11

Open reading frames (ORFs) search

È un

Per ogni sequenza. DNA ci sono freno usim tone: 1 torware + , ver

promote terminator

e =" Frame 1 ATGACACGATATGAGATATGCATAGAAAGCGAATATAGATAG Open@

Frame2 (^) L ATGACACGATJL JL RMIGAGATATGCAMMGAAAGCGAATATAGATAG} L JL JL JU J Blocked @

Frame3 ATGAC/ \TATCGAGATATECATAGAAAGCGAATATAG:7 AC Blocked@

È un metodo che funziona molto bene con | genomi dei procarioti. Nei genomi eucariotici ci sono 2 problem principali: Molte regioni intergeniche (False positive ORFs) INTRONI (eukaryotic ORFs non sono continue)

ALMAUNIVERSITA MATER DISTUDIORUM BOLOGNA

13

— Moltissimi

— Una particolarità di molti ncRNA è quella di formare delle strutture secondarie ben definite.

— ItRNA, per esempio, hanno la cosiddetta struttura "cloverleaf", che può essere identificata da tool bioinformatici che valutano la stabilità delle strutture secondarie.

stem loops)

3' A-OH C C 5' A pe C_-G (^) °° acceptor stem GT_-C G_-UA=U TYC (^) W loo p D-loop U—A UT—-A \ U cacac©U.a DSA (^) CU A III G

D mCUGUG C

È DIL k TY GG ida Me A Um'G

C_G A—U variable loop G— mîc Anticodon AV, loop Cm ® U Y

ALMAUNIVERSITA MATER DISTUDIORUM BOLOGNA

(e.g. un genoma appena sequenziato) (^) &. 2

  • BLAST c-e = TN — È un approccio che può essere usato per Nucleotide BLAST "assegnare" una funzione a geni appena nucleotide» nucleotide scoperti.

', usato in genomica {_} G-geS:__H E comparativa MKT- KENNAN. .1-

  • È usata per calcolare la distanza evolutiva tra specie diverse

Gli approcci bioinformatici hanno bisogno di essere validati sperimentalmente!! ALMA MAT ER STUDIORUM 15 UNIVERSITÀ^ DI^ BOLOGNA

Northern blot

* Metodo basato sull

e Si usano delle sonde "labelled"

  • Problemi:

— Inalcuni casi a una sonda possono corrispondere più di una banda (isoforme trascrizionali)

— Molti geni sono espressi in tessuti specifici, in presenza di organismi complessi può essere necessario ripetere l'analisi su più tessuti

17

| Electrophoresis

RNA separated by size

Northern Blotting (Transfer of RNA to membrane)

i__\

ALMAUNIVERSITA MATER DISTUDIORUM BOLOGNA

18

RACE

lt uses Reverse Transcriptase approach

lt uses a specific primer designed in the

internal region of the gene

| =

There is a different protocol for 3’'RACE. — You don't need to know the gene sequence

Overview / 5' RACE mRNA (^) 5' esssscssseserieeamenissesionessinnionicesti (^) (A) -3' esis of first strand << SONA with primer SP

Y (^3) cRNA sl An degradation of the mRNA Purify cDNA with High Purex Ì bene rag?ctivity of the Transcriptor dl (^) shdr PCR Purification Kit (^) Reverse Transcriptase v Li 3-(A,AAAA (^) AS (^) tailing of the purifiedcDNA with dATP and TaT

Oligo Td-Anchor primer (^) Y (^) amplification of the tailed

—T » Mmmrv —— (Al: cDNA by PCR using the Oligo

(AIAAAA dd dT-anchor primer and a nested

PCR Anchor primer

e

<< second PCR with the PCR anchor primer and I a SP3 primer

PCR product ready for:

V=A. C.orG

e agarose-gei electrophoresis e analysis by hybridization or cloning

ALMAUNIVERSITA MATER DISTUDIORUM BOLOGNA

20

Annotazione funzionale dei geni

L'identificazione di un gene in una regione genomica può essere effettuata con approcci diversi, spesso usati in combinazione tra loro.

coding region

5 | | 3 promoter. start stop codon codon

Bioinformatic: Experimental:

  • Open reading frames (ORFs)^ *^ Northern^ blot

  • Thermodinamic stability^ prediction^ *^ Reverse-transcriptase^ PCR^ (RT-PCR)

  • Rapid amplification of cONA ends (RACE) e Exon trapping

  • Homology search

Genome wide:

* cDNA libraries

e Microarray

e RNA-sequencing e Transcriptome assembly

  • Capanalysis of gene expression (CAGE)^ UNIVERSITÀ DI BOLOGNA

ALMA MATER STUDIORUM

Il modo più "diretto" per annotare un gene su un genoma è sequenziarne l'RNA a

mapparne la sequenza sul genoma di riferimento (se disponibile).

e Consente di ricostruire l'intera sequenza di un gene solate and collect mANA tese,

ba Problemi: (^) (—, (^) Transoise”

* CcDNA troncati: possono portare

all'identificazione di false isoforme

trascrizionali. Insert into

e Trascritti rari: sono trascritti solitamente plasmids sottorappresentati nelle librerie^ di^ CONA^ e^ SE Grow^ er^ ___^ O possono richiedere il sequenziamento di molti Md insert piasmids _/ SI] cloni identici prima della loro identificazione cells (sebbene esistano dei metodi per "arricchire" olateplasmids una libreria di trascritti rari).

DNA

Sequence Te crta

DNA ALMAUNIVERSITÀ MATER DI STUDIORUMBOLOGNA