































































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Bioinformatica anno 2024, appunti
Tipologia: Appunti
1 / 71
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!
































































Definizione del National Institutes of Heath (NIH): “Research, development or application of computational tools and approaches for expanding the use of biological, medical, behavioral, or health, including those to acquire, store, organize, analyze, or visualize such data”
Definizione del vostro libro di testo: “Disciplina che ha l'obiettivo di sviluppare e applicare
, misurata adesempio tramite il numero di transistor per quadruplica quindi ogni 3 anni).
e ‘70.
Terminale detto anche figa di comando, console, prompt dei comandi, 0 shell
La shell è un interfaccia utente/elaboratore di tipo testuale:
L'utente digita dei comandi come testo
Viene data una risposta = Una delle più usate shell, versione evoluta della shell standard di UNIX è Bash.
BASH
Bash consente la «redirezione» di input e output: Di default questi sono righe di testo scritte (standard input) e stampate (standard output) sulla shell __ _ rr———————————€@mÈ
Bash mette a disposizione un semplice linguaggio di scripting nativo che permette di
svolgere compiti più complessi, non solo raccogliendo in uno script una serie di comandi, ma anche utilizzando variabili, funzioni e strutture di controllo di flusso.
Comandi base di Bash
» &Wd (Present Working Directory): Stampa su schermo il percorso assoluto alla -> Il percorso assoluto inizia dalla cartella «root», ovvero / Se digitate solo il comando, tornate nella cartella home di default (/home/nomeutente/)
posizione in cui vi trovate. Come per mkdir e cd si possono indicare i vari percorsi. Un altro modo per creare un file è il REINDERIZZAMENTO dell'output.Con il comando echo abbiamo visto come stampare su schermo delle righe di testo.Se vogliamo che il risultato di echo venga salvato in un file dobbiamo reindirizzare l'output utilizzando il comando >echo "Hello World!" > saluti.txt Creerà il file saluti.txt e echo Hello Imola!" >> saluti.txt Aggiunge una nuova riga al file. ATTENZIONE: se usate > ARE 0 Ren file precedente!!
Ù (FREEZER /percorso/nuovo/file=Crea un nuovo file in una nuova posizione. mv /percorso/vecchio/file /percorso/nuovo/file =Sposta un file in una nuova posizione/Permette di rinominare un file!iNB. Se non scrivete ilpercorso è perché l'oggetto è o è destinato alla cartella in cui siete.Se volete cp su una cartella scrivete cp -r/percorso/vecchio/file /percorso/nuovo/file
‘$
Le strutture di controllo di flusso In informatica le strutture di controllo di flusso sono dei costrutti sintattici la cui semantica afferisce al controllo del flusso di esecuzione di un programma, ovvero servono a specificare se, quando, in quale ordine e quante volte devono essere eseguite le istruzioni che compongono il codice sorgente.Le tre strutture fondamentali (e che interessano a noi) sono 3:
Il ciclo for Il ciclo for è indicato quando il modo più naturale per esprimere la condizione di permanenza in un ciclo consiste nello specificare quante volte debbano essere ripetuti l'istruzione o il blocco controllati dal ciclo. La struttura base di un ciclo for in unix è la seguente:
foriinlista di oggetti do 2. comandi > verno ele done Per ogni oggetto in "lista di oggetti" verrà creata una variabile i (il PC gli assegna un valore in base al comando che gli diamo) e verrà eseguito il blocco di comandi.La lista può essere sia una serie di nomi o anche il risultato di un comando.
Esempi:
foriin do echo "Ciao!" done Questo comando stamperà su schermo 4 volte "Ciao!"
do
done Questo comando stamperà su schermo ogni singola riga di nomi.txt (praticamente come
do
done Questo comando stamperà su schermo il nome e a seguire il contenuto di tutti i file che finiscono con ".txt"
loro volta essere uno o più cicli.
Con gli strumenti bioinformatici si possono analizzare dati biologici:
denominato FASTA
NG 008679.,1:5001-38170 Homo sapiens paired box 6 (PAX6) ACCCTCOTTTTCTTATCATTGACATTTARACTCTGGGGCAGGTCCTCGCGTAGAACGCGGCTGTCAGATCOT CCACTTOCCCTECCGAGCGGCGGTGAGAAGTGTGGGAACCEGCGCTECCAGGCTCACCTECCTOCCCGO COTCCECTOECCAGGTAACCGCCOGGGCTOECEGCOCCGGCCCEGCTOGEGGGCCCECGGGGCCTOTOCECTE
] sifast0)
chr7 127471196 127472363 Posl 0 chr7 127472363 127473530 Pos2 0 Chromosome ID —»> | chr7 127473530 127474697 Pos3 0
-.
End location, î [ict Score Phase (reading frame)
e più completa, a 12 colonne(GED12)) solitamente utilizzataper rappresentare
*thickEnd — la posizione finale della regione più "spessa" (la fine della sequenza
Start location
celereSearch verso Cyiobend o” "O^ -{354»,^ gle"^ "di^ |^ DI^ DIRTI FAST = 4
pedD3-6- Zero_Besed_Coondinate
Il file GTF/GFF
prima base del codon, '1' alla seconda e '2' alla terza.
I file Gama
Acronimi per Sequence Alignment Map e Binary Alignment Map. +Èun formato difileditesto,ditipo tabulare.
Le estensioni tipiche di questo formato sono: .sam,.bam.
aa una serie di informazioni sul o i neamento sull'allineatore, etc.
ntenere più informazioni possibili sugli allineamenti usando il
meeeePe tti Col Field Type Regexp/Range Brief description 1 QNAME String ([!-?A-7]{1,254} Query template NAME 2 FLAG Int [0, 2° — 1] bitwise FLAG 3 RNAME String \sl[rname:®=] [:rame:] Reference sequence NAME!! 4 POS Int [0, 2° — 1] l-based leftmost mapping POSition 5 MAPQ Int (0, 2° — 1] MAPping Quality 6 CIGAR String *I([0-9]+[MIDNSHP=X])+ CIGAR string 7 RNEXT String *|=|{[:rname:*=] [:rname:]} Reference name of the mate/next read 8 PNEXT Int (o, 25! — 1) Position of the mate/next read 9 TLEN Int (-22+1,2°-1] observed Template LENgth 10 _SEQ String *I[A-Za-2=.]+ segment SEQuence 11 _QUAL String ([1-7]+ ASCII of Phred-scaled base QUALity+
2, FLAG: Codice numerico ch Questa colonna è essenziale per ottenere in seguito, tramite software appropriati come samtoolsflagstat, statistiche sulla qualità dell'allinmeamento. Ad esempio, un valore FLAG pari a 4 indica che la suddetta lettura non è stata mappata in quanto non è stato trovato alcun punto sul genoma con cui allinearsi. Si consideri che dal punto di vista dello studio delle varianti strutturali queste letture non mappate potrebbero essere molto utili, infatti sono proprio queste che solitamente contengono il maggior numero di polimorfismi rispetto al riferimento, che impediscono appunto l'allineamento
rRNA tRNA snRNA snoRNA
fe (^) è diad = i tii è E v^ @ tr Ribosome Linker between mRNA Catalyze the splici Altering the tRNA,rRNA and synthesis)^ component (protein^ andacid^ thechain^ growing amino^ of^ cea^ ha^ RNAimprinting^ editing^ and^ genome
miRNA circRNA piwi RNA scaRNA
All kx è xo T I
Targeted cleavage of Regulate gene expression,^ Guide^ piwi-interacting^ protein to^ RNA^ metabolism^ and mRNA expression) (regulate gene^ MIRNAsponging^ decoys and^ protein^ cleave target RNA,heterochromatin assembly^ promote and formation^ of RNPs methylate DNA
cono trascritti dalla RNA poll. | (^) e alcuni non coding sono trascritti dalla RNA pol Ill.
A differenza del genoma di una cellula, il trascrittoma (eucariotico) è molto più complesso.Le due principali "fonti" di complessità sono:
11
Open reading frames (ORFs) search
È un
promote terminator
e =" Frame 1 ATGACACGATATGAGATATGCATAGAAAGCGAATATAGATAG Open@
Frame2 (^) L ATGACACGATJL JL RMIGAGATATGCAMMGAAAGCGAATATAGATAG} L JL JL JU J Blocked @
È un metodo che funziona molto bene con | genomi dei procarioti. Nei genomi eucariotici ci sono 2 problem principali: Molte regioni intergeniche (False positive ORFs) INTRONI (eukaryotic ORFs non sono continue)
ALMAUNIVERSITA MATER DISTUDIORUM BOLOGNA
13
— Moltissimi
— Una particolarità di molti ncRNA è quella di formare delle strutture secondarie ben definite.
— ItRNA, per esempio, hanno la cosiddetta struttura "cloverleaf", che può essere identificata da tool bioinformatici che valutano la stabilità delle strutture secondarie.
stem loops)
3' A-OH C C 5' A pe C_-G (^) °° acceptor stem GT_-C G_-UA=U TYC (^) W loo p D-loop U—A UT—-A \ U cacac©U.a DSA (^) CU A III G
È DIL k TY GG ida Me A Um'G
C_G A—U variable loop G— mîc Anticodon AV, loop Cm ® U Y
ALMAUNIVERSITA MATER DISTUDIORUM BOLOGNA
(e.g. un genoma appena sequenziato) (^) &. 2
', usato in genomica {_} G-geS:__H E comparativa MKT- KENNAN. .1-
Gli approcci bioinformatici hanno bisogno di essere validati sperimentalmente!! ALMA MAT ER STUDIORUM 15 UNIVERSITÀ^ DI^ BOLOGNA
Northern blot
e Si usano delle sonde "labelled"
— Inalcuni casi a una sonda possono corrispondere più di una banda (isoforme trascrizionali)
— Molti geni sono espressi in tessuti specifici, in presenza di organismi complessi può essere necessario ripetere l'analisi su più tessuti
17
| Electrophoresis
RNA separated by size
Northern Blotting (Transfer of RNA to membrane)
ALMAUNIVERSITA MATER DISTUDIORUM BOLOGNA
18
RACE
lt uses a specific primer designed in the
internal region of the gene
| =
There is a different protocol for 3’'RACE. — You don't need to know the gene sequence
Overview / 5' RACE mRNA (^) 5' esssscssseserieeamenissesionessinnionicesti (^) (A) -3' esis of first strand << SONA with primer SP
Y (^3) cRNA sl An degradation of the mRNA Purify cDNA with High Purex Ì bene rag?ctivity of the Transcriptor dl (^) shdr PCR Purification Kit (^) Reverse Transcriptase v Li 3-(A,AAAA (^) AS (^) tailing of the purifiedcDNA with dATP and TaT
Oligo Td-Anchor primer (^) Y (^) amplification of the tailed
(AIAAAA dd dT-anchor primer and a nested
PCR Anchor primer
<< second PCR with the PCR anchor primer and I a SP3 primer
PCR product ready for:
V=A. C.orG
e agarose-gei electrophoresis e analysis by hybridization or cloning
ALMAUNIVERSITA MATER DISTUDIORUM BOLOGNA
20
Annotazione funzionale dei geni
L'identificazione di un gene in una regione genomica può essere effettuata con approcci diversi, spesso usati in combinazione tra loro.
5 | | 3 promoter. start stop codon codon
Bioinformatic: Experimental:
Open reading frames (ORFs)^ *^ Northern^ blot
Thermodinamic stability^ prediction^ *^ Reverse-transcriptase^ PCR^ (RT-PCR)
Rapid amplification of cONA ends (RACE) e Exon trapping
Homology search
e RNA-sequencing e Transcriptome assembly
ALMA MATER STUDIORUM
Il modo più "diretto" per annotare un gene su un genoma è sequenziarne l'RNA a
mapparne la sequenza sul genoma di riferimento (se disponibile).
e Consente di ricostruire l'intera sequenza di un gene solate and collect mANA tese,
ba Problemi: (^) (—, (^) Transoise”
e Trascritti rari: sono trascritti solitamente plasmids sottorappresentati nelle librerie^ di^ CONA^ e^ SE Grow^ er^ ___^ O possono richiedere il sequenziamento di molti Md insert piasmids _/ SI] cloni identici prima della loro identificazione cells (sebbene esistano dei metodi per "arricchire" olateplasmids una libreria di trascritti rari).
DNA
Sequence Te crta
DNA ALMAUNIVERSITÀ MATER DI STUDIORUMBOLOGNA