Prepara i tuoi esami
Ottieni punti
Guide e consigli
Vendi su Docsity
Docsity AI

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Guide e consigli

Vendi su Docsity

Docsity AI

Accedi Registrati

Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity

Cerca documenti

Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity

Cerca la tua università

Trova i documenti specifici per gli esami della tua università

Video Corsi

Preparati con lezioni e prove svolte basate sui programmi universitari!

Quiz

Rispondi a reali domande d’esame e scopri la tua preparazione

Docsity AINEW

Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali

Maturità 2026

Studia con prove svolte, tesine e consigli utili

Esplora domande

Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te

Argomenti di studio

Esplora i documenti più scaricati per gli argomenti di studio più popolari

Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium

Condividi documenti

20 Punti

Per ogni documento caricato

Rispondi alle domande

5 Punti

per ogni risposta data (max 1 al giorno)

Tutti i modi per ottenere punti gratis

Ottieni punti subito

Scegli un piano Premium con tutti i punti di cui hai bisogno

Opportunità di studio

Scegli il tuo prossimo programma di studio

Entra in contatto con le migliori università del mondo e scegli il tuo percorso di studi

Classifica delle migliori università

Scopri le migliori università italiane secondo gli studenti

Community

Chiedi alla community

Chiedi aiuto alla community e sciogli i tuoi dubbi legati allo studio

Guide Gratuite

I nostri eBook salva studente

Scarica gratuitamente le nostre guide sulle tecniche di studio, metodi per gestire l'ansia, dritte per la tesi realizzati da tutor Docsity

Bioinformatica modulo 1: Prof Russo, Appunti di Bioinformatica

Alma Mater Studiorum – Università di Bologna (UNIBO)Bioinformatica

Prof. Stefano Russo

Bioinformatica anno 2024, appunti

Tipologia: Appunti

2023/2024

In vendita dal 29/03/2025

clelia.dagostini 🇮🇹

3.8

(10)

16 documenti

1 / 71

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

Cos'è

la

bioinformatica:

*

Definizione

del

National

Institutes

of

Heath

(NIH):

“Research,

development

or

application

of

computational

tools

and

approaches

for

expanding

the

use

of

biological,

medical,

behavioral,

or

health,

including

those

to

acquire,

store,

organize,

analyze,

or

visualize

such

data”

*

Definizione

del

vostro

libro

di

testo:

“Disciplina

che

ha

l'obiettivo

di

sviluppare

e

applicare

,

misurata

adesempio

tramite

il

numero

di

transistor

per

quadruplica

quindi

ogni

3

anni).

*

UNIX

è

un

sistema

operativo

sviluppato

originariamente

dai

Bell

Laboratories

negli

anni

'60

e

‘70.

*

È

stato

il

primo

sistema:

|

(directories)

*

Nel

1991

Linus

Torvalds

crea

una

versione

modificata

di

UNIX,

oggi

chiamata

GNU/Linux

*»

Sistema

operativo

«open

source»,

licenza

gratuita

che

ne

concede

lo

studio,

l'utilizzo,

la

modifica

e

la

redistribuzione.

*

GNU/Linux

è

alla

base

di

tante

«distribuzioni»

alternative

ad

es.

Ubuntu,

Fedora,

Debian...

Terminale

detto

anche

figa

di

comando,

console,

prompt

dei

comandi,

0

shell

*

La shell

è

un

interfaccia

utente/elaboratore

di

tipo

testuale:

*

L'utente

digita

dei

comandi

come

testo

*

Viene

data

una

risposta

=

Una

delle

più

usate

shell,

versione

evoluta

della

shell

standard

di

UNIX

è

Bash.

BASH

*

Bash

consente

la

«redirezione»

di

input

e

output:

Di

default

questi

sono

righe

di

testo

scritte

(standard

input)

e

stampate

(standard

output)

sulla

shell

__

_

rr———————————€@mÈ

*

Bash

mette

a

disposizione

un

semplice

linguaggio

di

scripting

nativo

che

permette

di

Scopri Appunti di Bioinformatica Alma Mater Studiorum – Università di Bologna (UNIBO)

Documenti correlati

Bioinformatica modulo 2: Prof Forestan

Bioinformatica (modulo Biologia molecolare e Bioinformatica)

(4)

Bioinformatica appunti lezioni

(1)

Allineamento di Sequenze: Tecniche e Applicazioni in Bioinformatica - Prof. Russo

Bioinformatica prima parte secondo modulo

Bioinformatica seconda parte secondo modulo

Bioinformatica Modulo 1

(1)

Esercizi Bioinformatica

(1)

database bioinformatica

Bioinformatica allineamenti

(1)

Bioinformatica torino

(1)

SBOBINE BIOINFORMATICA

(1)

Anteprima parziale del testo

Scarica Bioinformatica modulo 1: Prof Russo e più Appunti in PDF di Bioinformatica solo su Docsity!

Cos'è labioinformatica:

Definizione del National Institutes of Heath (NIH): “Research, development or application of computational tools and approaches for expanding the use of biological, medical, behavioral, or health, including those to acquire, store, organize, analyze, or visualize such data”
Definizione del vostro libro di testo: “Disciplina che ha l'obiettivo di sviluppare e applicare

, misurata adesempio tramite il numero di transistor per quadruplica quindi ogni 3 anni).

* UNIX è un sistema operativo sviluppato originariamente dai Bell Laboratories negli anni '

e ‘70.

È stato il primo sistema: |

(directories)

Nel 1991 Linus Torvalds crea una versione modificata di UNIX, oggi chiamata GNU/Linux *» Sistema operativo «open source», licenza gratuita che ne concede lo studio, l'utilizzo, la modifica e la redistribuzione.
GNU/Linux è alla base di tante «distribuzioni» alternative ad es. Ubuntu, Fedora, Debian...

Terminale detto anche figa di comando, console, prompt dei comandi, 0 shell

La shell è un interfaccia utente/elaboratore di tipo testuale:
L'utente digita dei comandi come testo
Viene data una risposta = Una delle più usate shell, versione evoluta della shell standard di UNIX è Bash.

BASH

Bash consente la «redirezione» di input e output: Di default questi sono righe di testo scritte (standard input) e stampate (standard output) sulla shell __ _ rr———————————€@mÈ
Bash mette a disposizione un semplice linguaggio di scripting nativo che permette di

svolgere compiti più complessi, non solo raccogliendo in uno script una serie di comandi, ma anche utilizzando variabili, funzioni e strutture di controllo di flusso.

Comandi base di Bash

O come output stampa su schermo testo

. i asd su schermo il

—hostname: Stampa su Peo E E caso di CoCalcil nome della macchina virtuale creata per voi) CDS scemo Tenco de gni e corel) presenta caio

» &Wd (Present Working Directory): Stampa su schermo il percorso assoluto alla -> Il percorso assoluto inizia dalla cartella «root», ovvero / Se digitate solo il comando, tornate nella cartella home di default (/home/nomeutente/)

Se digitate cd .., andrete nella cartella superiore
Se digitate cd nomecartella, entrerete in quella cartella. Per esempio: Se la cartella in cui volete entrare è «lontana», potete:* Digitare il percorso assoluto. Per esempio: cd /home/user/bla/bla/ble/bli/blo/blu/
Navigare su è giù per le cartelle. Per esempio: cd ../../../bli/blo/blu/Questi ultimi due esempi non funzioneranno se prima non creiamo una struttura di cartelle nostra Quando non sai dove ti trovi, digita cd
mkdir - make directory: Commando essenziale che crea una cartellacon un nome a nostra scelta, mkdir cartella, Questo comando creerà una cartella (chiamata «cartella») nella posizione in cui vi trovate.Come per il commando cd, potete creare cartelle utilizzando i percorsi assoluti e..Esempio: mkdir mkdir /home/user/ cartella../user/cartellaQuesti comandi dovrebbero dare un risultato identico al primo (se lanciati tutti dalla posizione default).Se una cartella con lo stesso nome esiste già, il comando restituisce un errore.

posizione in cui vi trovate. Come per mkdir e cd si possono indicare i vari percorsi. Un altro modo per creare un file è il REINDERIZZAMENTO dell'output.Con il comando echo abbiamo visto come stampare su schermo delle righe di testo.Se vogliamo che il risultato di echo venga salvato in un file dobbiamo reindirizzare l'output utilizzando il comando >echo "Hello World!" > saluti.txt Creerà il file saluti.txt e echo Hello Imola!" >> saluti.txt Aggiunge una nuova riga al file. ATTENZIONE: se usate > ARE 0 Ren file precedente!!

Ù (FREEZER /percorso/nuovo/file=Crea un nuovo file in una nuova posizione. mv /percorso/vecchio/file /percorso/nuovo/file =Sposta un file in una nuova posizione/Permette di rinominare un file!iNB. Se non scrivete ilpercorso è perché l'oggetto è o è destinato alla cartella in cui siete.Se volete cp su una cartella scrivete cp -r/percorso/vecchio/file /percorso/nuovo/file

SHOSTTYPE: il tipo di sistema operativo.

* SUSER: il nome utente.

* S$SHELL: la shell che si sta usando (solitamente /bin/bash)

* SHOME: il percorso home (e.g. /home/user)

‘$

Le strutture di controllo di flusso In informatica le strutture di controllo di flusso sono dei costrutti sintattici la cui semantica afferisce al controllo del flusso di esecuzione di un programma, ovvero servono a specificare se, quando, in quale ordine e quante volte devono essere eseguite le istruzioni che compongono il codice sorgente.Le tre strutture fondamentali (e che interessano a noi) sono 3:

SEQUENZA: semplice successione delle istruzioni.
ITERAZIONE: Le strutture di controllo "iterative" consentono di specificare che una data istruzione o un Esse vengono anche dette cicli. Il più semplice è il "ciclo for". : : consentono di Sono perciò anche dette strutture condizionali. 2 forme: if-then e if-then-else.

Il ciclo for Il ciclo for è indicato quando il modo più naturale per esprimere la condizione di permanenza in un ciclo consiste nello specificare quante volte debbano essere ripetuti l'istruzione o il blocco controllati dal ciclo. La struttura base di un ciclo for in unix è la seguente:

foriinlista di oggetti do 2. comandi > verno ele done Per ogni oggetto in "lista di oggetti" verrà creata una variabile i (il PC gli assegna un valore in base al comando che gli diamo) e verrà eseguito il blocco di comandi.La lista può essere sia una serie di nomi o anche il risultato di un comando.

Esempi:

foriin do echo "Ciao!" done Questo comando stamperà su schermo 4 volte "Ciao!"

>foriin $(catnomi.txt)

do

>echo $i

done Questo comando stamperà su schermo ogni singola riga di nomi.txt (praticamente come

lanciare cat...)

>for i in $S(Is *.txt)

do

>echo Si

>cat Si

done Questo comando stamperà su schermo il nome e a seguire il contenuto di tutti i file che finiscono con ".txt"

a i cicli possono essere ovviamente "nested": I comandi all'interno di un ciclo possono a

loro volta essere uno o più cicli.

Con gli strumenti bioinformatici si possono analizzare dati biologici:

Dati che contengono conoscenze pregresse (dati di "riferimento", o reference) - FASTA, GTF/GFF, BED
Dati ottenuti sperimentalmente (solitamente risultati del sequenziamento) - FASTQ
Dati generati dall'analisi, il cui formato dipende dall'analisi stessa:
Risultati di allineamento - SAM/BAM
Risultati di variant calling - VCF
Risultati di quantificazione di segnale - BEDGRAPH, BigWig, TXT
Risultati in formati del primo punto - FASTA, GFF, BED

denominato FASTA

È un formato di file ditesto.

Le x estensioni tipiche di questo formato sono: .fasta,.fas,.fa,.fna,.ffn,.faa,,mpfa,.frn
E il formato standard dei dati di sequenza, siano essi proteine o acidi nucleici.
Può contenere dati di più sequenze.

È essenzialmente costituito de2 righe per sequenza (ma molti file possono contenere sequenze a Ni

NG 008679.,1:5001-38170 Homo sapiens paired box 6 (PAX6) ACCCTCOTTTTCTTATCATTGACATTTARACTCTGGGGCAGGTCCTCGCGTAGAACGCGGCTGTCAGATCOT CCACTTOCCCTECCGAGCGGCGGTGAGAAGTGTGGGAACCEGCGCTECCAGGCTCACCTECCTOCCCGO COTCCECTOECCAGGTAACCGCCOGGGCTOECEGCOCCGGCCCEGCTOGEGGGCCCECGGGGCCTOTOCECTE

] sifast0)

Questo formato è una versione "estesa" del FASTA.

È un formato di file ditesto.

Le estensioni tipiche di questo formato sono: .fastq,.fq

chr7 127471196 127472363 Posl 0 chr7 127472363 127473530 Pos2 0 Chromosome ID —»> | chr7 127473530 127474697 Pos3 0

-.

End location, î [ict Score Phase (reading frame)

e più completa, a 12 colonne(GED12)) solitamente utilizzataper rappresentare

thickStart — la posizione iniziale in cui la regione verrà visualizzata più "spessa"

(solitamente l'inizio dellasequenza codificante).

*thickEnd — la posizione finale della regione più "spessa" (la fine della sequenza

codificante).

itemRgb — tre valori numerici in formato Red,Green,Blue, 0 RGB (es. 255,0,0) che definiranno il colore dellafeature.

* blockCount — il numero di "blocchi" della feature (solitamente il numero di esoni).

blockSizes — una lista separate da "," con le dimensioni di suddetti "blocchi".
blockStarts — una lista separata da "/' con le posizioni di inizio di suddetti blocchi relative a "Start".
In questo modo è possibile distinguere visivamente esoni, introni, sequenze codificanti e UTRSs.

* Solitamente |formati più usati sono | primi 2 (BED3 e BED6). FASTA =

Start location

celereSearch verso Cyiobend o” "O^ -{354»,^ gle"^ "di^ |^ DI^ DIRTI FAST = 4

pedD3-6- Zero_Besed_Coondinate

GTF/GFF =G

Il file GTF/GFF

Acronimi per General Feature Format e General Transfer Format. SAM = AA

È un formato di fileditesto,ditipo tabulare.

Le estensioni tipiche di questo formato sono: .gff,.gtf.
È solitamente utilizzato contenere le annotazioni dei geni (Ma può essere usato per altre

features).

II file è costituito dalle seguenti colonne:
seqname -— nome del cromosoma.
source — nome del programma o del database che ha generato il dato. -

* feature — tipo di dato (gene, porzione del gene, etc.).

start — posizione iniziale
end — posizione finale
score — simile al BED.
strand — simile al BED.
frame — Valore tra '0','1' or '2'. '0' significa che la prima base dell'oggetto corrisponde alla

prima base del codon, '1' alla seconda e '2' alla terza.

attribute — una lista di informazioni addizionali separate da ";".

I file Gama

Acronimi per Sequence Alignment Map e Binary Alignment Map. +Èun formato difileditesto,ditipo tabulare.
Le estensioni tipiche di questo formato sono: .sam,.bam.

È strutturato in mo minimo spazio (solitamente

Il file può iniziare con in cosiddetto "header", ovvero delle righe che iniziano con "@", che

aa una serie di informazioni sul o i neamento sull'allineatore, etc.

ntenere più informazioni possibili sugli allineamenti usando il

meeeePe tti Col Field Type Regexp/Range Brief description 1 QNAME String ([!-?A-7]{1,254} Query template NAME 2 FLAG Int [0, 2° — 1] bitwise FLAG 3 RNAME String \sl[rname:®=] [:rame:] Reference sequence NAME!! 4 POS Int [0, 2° — 1] l-based leftmost mapping POSition 5 MAPQ Int (0, 2° — 1] MAPping Quality 6 CIGAR String *I([0-9]+[MIDNSHP=X])+ CIGAR string 7 RNEXT String *|=|{[:rname:*=] [:rname:]} Reference name of the mate/next read 8 PNEXT Int (o, 25! — 1) Position of the mate/next read 9 TLEN Int (-22+1,2°-1] observed Template LENgth 10 _SEQ String *I[A-Za-2=.]+ segment SEQuence 11 _QUAL String ([1-7]+ ASCII of Phred-scaled base QUALity+

| campi engono ricavati dal FASTQ.
Il campo una combinazione di bit ognuno corrispondente a una specifica informazione «Il valore è dato dalla somma dei bit, se la descrizione è rispettata.La comodità del bit è data dal fatto che a ogni valore di FLAG corrisponde un pattern di "descrizioni" univoco. Utile per filtrare gli allineamenti.

2, FLAG: Codice numerico ch Questa colonna è essenziale per ottenere in seguito, tramite software appropriati come samtoolsflagstat, statistiche sulla qualità dell'allinmeamento. Ad esempio, un valore FLAG pari a 4 indica che la suddetta lettura non è stata mappata in quanto non è stato trovato alcun punto sul genoma con cui allinearsi. Si consideri che dal punto di vista dello studio delle varianti strutturali queste letture non mappate potrebbero essere molto utili, infatti sono proprio queste che solitamente contengono il maggior numero di polimorfismi rispetto al riferimento, che impediscono appunto l'allineamento

rRNA tRNA snRNA snoRNA

fe (^) è diad = i tii è E v^ @ tr Ribosome Linker between mRNA Catalyze the splici Altering the tRNA,rRNA and synthesis)^ component (protein^ andacid^ thechain^ growing amino^ of^ cea^ ha^ RNAimprinting^ editing^ and^ genome

miRNA circRNA piwi RNA scaRNA

All kx è xo T I

Targeted cleavage of Regulate gene expression,^ Guide^ piwi-interacting^ protein to^ RNA^ metabolism^ and mRNA expression) (regulate gene^ MIRNAsponging^ decoys and^ protein^ cleave target RNA,heterochromatin assembly^ promote and formation^ of RNPs methylate DNA

cono trascritti dalla RNA poll. | (^) e alcuni non coding sono trascritti dalla RNA pol Ill.

A differenza del genoma di una cellula, il trascrittoma (eucariotico) è molto più complesso.Le due principali "fonti" di complessità sono:

Lo splicing alternativo
L'RNA editing: modificazione chimica dell'mRNA, presente in trascritti di eucarioti, mitocondri e cloroplasti

11

Open reading frames (ORFs) search

È un

Per ogni sequenza. DNA ci sono freno usim tone: 1 torware + , ver

promote terminator

e =" Frame 1 ATGACACGATATGAGATATGCATAGAAAGCGAATATAGATAG Open@

Frame2 (^) L ATGACACGATJL JL RMIGAGATATGCAMMGAAAGCGAATATAGATAG} L JL JL JU J Blocked @

Frame3 ATGAC/ \TATCGAGATATECATAGAAAGCGAATATAG:7 AC Blocked@

È un metodo che funziona molto bene con | genomi dei procarioti. Nei genomi eucariotici ci sono 2 problem principali: Molte regioni intergeniche (False positive ORFs) INTRONI (eukaryotic ORFs non sono continue)

ALMAUNIVERSITA MATER DISTUDIORUM BOLOGNA

13

— Moltissimi

— Una particolarità di molti ncRNA è quella di formare delle strutture secondarie ben definite.

— ItRNA, per esempio, hanno la cosiddetta struttura "cloverleaf", che può essere identificata da tool bioinformatici che valutano la stabilità delle strutture secondarie.

stem loops)

3' A-OH C C 5' A pe C_-G (^) °° acceptor stem GT_-C G_-UA=U TYC (^) W loo p D-loop U—A UT—-A \ U cacac©U.a DSA (^) CU A III G

D mCUGUG C

È DIL k TY GG ida Me A Um'G

C_G A—U variable loop G— mîc Anticodon AV, loop Cm ® U Y

ALMAUNIVERSITA MATER DISTUDIORUM BOLOGNA

(e.g. un genoma appena sequenziato) (^) &. 2

BLAST c-e = TN — È un approccio che può essere usato per Nucleotide BLAST "assegnare" una funzione a geni appena nucleotide» nucleotide scoperti.

', usato in genomica {_} G-geS:__H E comparativa MKT- KENNAN. .1-

È usata per calcolare la distanza evolutiva tra specie diverse

Gli approcci bioinformatici hanno bisogno di essere validati sperimentalmente!! ALMA MAT ER STUDIORUM 15 UNIVERSITÀ^ DI^ BOLOGNA

Northern blot

* Metodo basato sull

e Si usano delle sonde "labelled"

Problemi:

— Inalcuni casi a una sonda possono corrispondere più di una banda (isoforme trascrizionali)

— Molti geni sono espressi in tessuti specifici, in presenza di organismi complessi può essere necessario ripetere l'analisi su più tessuti

17

| Electrophoresis

RNA separated by size

Northern Blotting (Transfer of RNA to membrane)

i__\

ALMAUNIVERSITA MATER DISTUDIORUM BOLOGNA

18

RACE

lt uses Reverse Transcriptase approach

lt uses a specific primer designed in the

internal region of the gene

| =

There is a different protocol for 3’'RACE. — You don't need to know the gene sequence

Overview / 5' RACE mRNA (^) 5' esssscssseserieeamenissesionessinnionicesti (^) (A) -3' esis of first strand << SONA with primer SP

Y (^3) cRNA sl An degradation of the mRNA Purify cDNA with High Purex Ì bene rag?ctivity of the Transcriptor dl (^) shdr PCR Purification Kit (^) Reverse Transcriptase v Li 3-(A,AAAA (^) AS (^) tailing of the purifiedcDNA with dATP and TaT

Oligo Td-Anchor primer (^) Y (^) amplification of the tailed

—T » Mmmrv —— (Al: cDNA by PCR using the Oligo

(AIAAAA dd dT-anchor primer and a nested

PCR Anchor primer

e

<< second PCR with the PCR anchor primer and I a SP3 primer

PCR product ready for:

V=A. C.orG

e agarose-gei electrophoresis e analysis by hybridization or cloning

ALMAUNIVERSITA MATER DISTUDIORUM BOLOGNA

20

Annotazione funzionale dei geni

L'identificazione di un gene in una regione genomica può essere effettuata con approcci diversi, spesso usati in combinazione tra loro.

coding region

5 | | 3 promoter. start stop codon codon

Bioinformatic: Experimental:

Open reading frames (ORFs)^ *^ Northern^ blot
Thermodinamic stability^ prediction^ *^ Reverse-transcriptase^ PCR^ (RT-PCR)
Rapid amplification of cONA ends (RACE) e Exon trapping
Homology search

Genome wide:

* cDNA libraries

e Microarray

e RNA-sequencing e Transcriptome assembly

Capanalysis of gene expression (CAGE)^ UNIVERSITÀ DI BOLOGNA

ALMA MATER STUDIORUM

Il modo più "diretto" per annotare un gene su un genoma è sequenziarne l'RNA a

mapparne la sequenza sul genoma di riferimento (se disponibile).

e Consente di ricostruire l'intera sequenza di un gene solate and collect mANA tese,

ba Problemi: (^) (—, (^) Transoise”

* CcDNA troncati: possono portare

all'identificazione di false isoforme

trascrizionali. Insert into

e Trascritti rari: sono trascritti solitamente plasmids sottorappresentati nelle librerie^ di^ CONA^ e^ SE Grow^ er^ ___^ O possono richiedere il sequenziamento di molti Md insert piasmids _/ SI] cloni identici prima della loro identificazione cells (sebbene esistano dei metodi per "arricchire" olateplasmids una libreria di trascritti rari).

DNA

Sequence Te crta

DNA ALMAUNIVERSITÀ MATER DI STUDIORUMBOLOGNA