











Estude fácil! Tem muito documento disponível na Docsity
Ganhe pontos ajudando outros esrudantes ou compre um plano Premium
Prepare-se para as provas
Estude fácil! Tem muito documento disponível na Docsity
Prepare-se para as provas com trabalhos de outros alunos como você, aqui na Docsity
Encontra documentos específicos para os exames da tua universidade
Prepare-se com as videoaulas e exercícios resolvidos criados a partir da grade da sua Universidade
Responda perguntas de provas passadas e avalie sua preparação.
Ganhe pontos para baixar
Ganhe pontos ajudando outros esrudantes ou compre um plano Premium
apostila de bioinformática
Tipologia: Notas de estudo
1 / 19
Esta página não é visível na pré-visualização
Não perca as partes importantes!












Coordenação: Prof. Thais Faggioni Elaboração do Material: Prof. Dra. Lívia Melo Villar
Bioinformática
O conceito de bioinformática pode ser resumido como a utilização de técnicas advindas da matemática, estatística e computação para a análise de problemas de biologia.
O termo bioinformática é um conceito relativamente recente, o qual apareceu na literatura pela primeira vez na década de 90. Contudo como pode ser visto pelo breve histórico apresentado a seguir, a pesquisa em bioinformática não é um assunto novo, sendo que os marcos iniciais da pesquisa datam da década de 60.
Breve Histórico da Bioinformática
0 0 9 5
0 0 9 6
0 0 1962 Teoria da Evolução Molecular (^) 9 6Pauling 0 0 9 5
0 0 9 6
0 0 0 0^1965 Margaret Dayhoff^ 9 6Atlas de seqüências de proteínas 9 5
0 0 9 6
0 0 0 0^1970 Algoritmo de Needleman-Wunsch^ 9 6comparação entre seqüências 9 5
0 0 (^1977) 9 6Seqüenciamento de DNA e desenvolvimento de softwares para análise de 0 0 seqüências (^) 9 6R. Staden 0 0 9 5
0 0 0 0^1981 9 6Desenvolvimento do algoritmo de Smith-Waterman 9 5
0 0 0 0^1982 9 6Publicação do Release 3 do GenBank 9 5
0 0 (^1982) 9 6Seqüenciamento do Genoma do Fago lambda 0 0 9 5
0 0 9 6
0 0 0 0^1983 Algoritmo de busca de seqüências em bancos de dados^ 9 6Wilbur-Lipman 9 5
0 0 9 6
0 0 0 0^1985 Comparação rápida de seqüências^ 9 6FASTAP/FASTAN 9 5
0 0 (^1988) 9 6Criação do National Center for Biotechnology Information (NCBI) 0 0 9 5
0 0 0 0^1988 9 6Rede EMBnet para distribuição de bancos de dados 9 5
0 0 9 6
0 0 0 0^1990 Método mais rápido de comparação de seqüências^ 9 6BLAST 9 5
0 0 0 0^1991 9 6EST: Etiquetas de seqüência transcrita 9 5
0 0 (^1993) 9 6Criação do Sanger Center, Hinxton, UK 0 0 9 5
0 0 0 0^1994 9 6Criação do EMBL European Bioinformatics Institute 9 5
0 0 0 0^1995 9 6Seqüenciamento completo dos primeiros genomas bacterianos 9 5
0 0 (^1996) 9 6Genoma completo da levedura S. cereviseae 0 0 9 5
0 0 0 0^1998 9 6Genoma completo de C.elegans (multicelular) 9 5
0 0 0 0^1999 9 6Genoma completo de D. melanogaster 9 5
0 0 (^2001) 9 6Genoma completo de Homo sapiens Principais Programas Utilizados na Análise Bioinformática
O número de programas utilizados em bioinformática tem crescido significativamente nos últimos anos e inclui ferramentas diversas como algoritmos para clusterização de seqüências, alinhamento de seqüências de nucleotídeos e proteínas, predição de genes inteiros (ORFs que são as Open Reading Frame ou janela aberta de leitura, região da sequência nucleotídica que é traduzida em uma proteína) em seqüências, anotação automática de genes, construção de árvores filogenéticas e outros. Abaixo há uma lista dos principais programas utilizados na análise bioinformática.
0 0 9 5 Nomeação de Bases pós-seqüenciamento: o PHRED 0 0 9 5 Alinhamento de Seqüências: o BLAST, ClustalW, FASTA 0 0 9 5 Análise de alinhamentos:
RUMMAGE e Genotator
0 0 9 5 Análise de Estrutura de Proteínas e modelagem molecular: o STING, Modeller 0 0 9 5 Anotação automática: o Blast2go, AutoFact, Garsa Anotação de Seqüências
O objetivo principal e definitivo de todos os esforços empregados em seqüenciamento é descobrir funções moleculares (bioquímicas) e celulares de todos os produtos gênicos codificados por estas seqüências. A interpretação da informação contida nas seqüências, isto é, a anotação gênica, é entretanto, uma tarefa não trivial e tem sido objeto de intensa pesquisa. A priori,a anotação gênica pode ser dividida em três etapas: a anotação no nível de nucleotídeo, a anotação no nível protéico e a anotação no nível de processos. A fase inicial da anotação, feita no nível de nucleotídeos tem como atividade principal a localização de marcadores através de mapeamento e a procura de genes na seqüência de DNA. Nesta fase são primeiro identificados marcadores produzidos através de mapeamentos feitos por análises genéticas, citogenéticas ou de híbridos de radiação.
Este conjunto de marcadores funcionam então como pontos de referência para a análise subseqüente: a procura por genes. Uma vez identificados os genes, são então identificadas seqüências correspondentes a RNAs não codificadores, seqüências regulatórias, elementos repetitivos e polimorfismos. Após a anotação no nível de nucleotídeos, inicia-se a etapa de anotação no nível protéico. Esta etapa é constituída da nomeação das proteínas do organismo e associação de possíveis funções a estas proteínas. Neste caso, são utilizados bancos de dados de seqüências primárias, estruturais, de famílias gênicas ou de domínios funcionais como as bases SWISS- PROT, Protein Data Bank (PDB) ou PFAM. Depois destes dois níveis tem início então a etapa de anotação no nível de processos. Esta etapa tem como objetivo relacionar o genoma a processos biológicos, isto é, estabelecer como os constituintes de um genoma se relacionam com o ciclo celular, a morte celular, embriogênese, metabolismo e manutenção da saúde do organismo. Este processo depende da existência de um banco de dados dotado de um esquema de classificação associado a funções biológicas conhecidamente descritas, com especificidade suficiente para distinguir entre proteínas que sejam membros de uma mesma família gênica. A base de dados Gene Ontology (GO) criada em 1991 é um repositório desta natureza.
A procura por genes codificadores de proteínas, tem sido amplamente utilizada por vários projetos de genômica funcional. Esta etapa é, em geral realizada em genomas de procariotos sem
maiores dificuldades, uma vez que ela consiste basicamente na identificação de janelas abertas de leitura na seqüência produzida. Em eucariotos, por outro lado, o processo de busca de genes é complicado pela presença de íntrons e sítios de splicing alternativo. Por essa razão, métodos diversos para a predição de genes em seqüências eucarióticas tem sido amplamente utilizados De maneira geral, a procura por genes é feita a partir de dois métodos de predição distintos designados respectivamente, extrínsecos e intrínsecos. Em genomas recém seqüenciados, genes são anotados primariamente com base em sua homologia com proteínas já caracterizadas em outros genomas. Este enfoque é designado extrínseco por desconsiderar as características existentes na seqüência investigada. Os programas baseados em busca de homologia que são utilizados neste tipo de abordagem, tem como premissa a conservação existente entre as seqüências de diferentes espécies. Tais programas utilizam sensores que exploram a similaridade existente entre uma região genômica desconhecida e uma seqüência de proteína ou nucleotídeos presente em um banco de dados, para determinar se a região em questão é ou não uma região codificadora. Para detectar a similaridade entre seqüências, estas são alinhadas em um processo que consiste na comparação de duas seqüências diferentes do mesmo organismo, ou de organismos diferentes, para gerar um alinhamento local ótimo. Alinhar duas seqüências consiste em estabelecer uma correspondência entre as bases dessas seqüências de modo que a ordem não seja violada. Por ordem entende- se que
interrompida. A figura 1 mostra esquematicamente como esse processo ocorre:
Pequeno ------------------------> Grande
0 0 Figura 1 (^) 9 6Representação esquemática do seqüenciamento de DNA. Observe à esquerda as moléculas que são geradas durante esse processo, cada uma possuindo um tamanho e, portanto, pesos moleculares diferentes entre si por apenas
0 0 9 3
0 0 um nucleotídeo. Como cada nucleotídeo especial possui uma cor9 4 e cada seqüência possuirá um tamanho diferente, podemos deduzir a seqüência da molécula original.
É interessante notar que essa técnica demonstra todo o poder da biologia molecular, ao utilizar de enzimas e mecanismos da própria célula in vitro para a obtenção de seqüências de DNA. Neste ponto podemos falar em uso de engenharia genética, já que nos utilizamos de uma proteína (a DNA polimerase) sendo usada in vitro para a obtenção da informação da seqüência.
Entretanto os métodos mais modernos são capazes de produzir seqüências de, no máximo, 1000 bases aleatórias dentro do genoma, o que significa que não existe conhecimento de qual região a seqüência gerada deriva. Um genoma de um organismo celular pequeno (da bactéria Escherichia coli, por exemplo) possui aproximadamente 107 bases, e os maiores (como a ameba de vida livre Amoeba dubia) podem alcançar até mesmo 1012! Podem-se perceber assim alguns problemas que surgem com esse fato:
0 0 9 5 Necessidade da realização de diversas reações de seqüenciamento para a obtenção da seqüência completa; 0 0 9 5 Uso de algum tipo de metodologia para ordenar as seqüências corretamente, de modo a formarmos os cromossomos inteiros; 0 0 9 5 Em alguns genomas podemos encontrar até 98% de seqüências que são não codificadoras (i.e., não produzem uma proteína), o que gera a necessidade de metodologias para encontrar os genes; O primeiro problema pôde ser razoavelmente bem contornado após a automatização do processo de seqüenciamento, que conta atualmente com robôs capazes de realizar 384 reações de seqüenciamento em 2 horas aproximadamente, mas os problemas seguintes foram os primeiros a exigirem o uso de computadores para a análise deste tipo de dado o que, podemos dizer, culminou por originar a bioinformática.
A ordenação das seqüências corretamente (processo conhecido também como montagem de genomas) é feita atualmente através do uso de algoritmos que sobrepõem as seqüências, buscando por regiões que possuam homologia entre si para podermos afirmar que elas estão ordenadas no cromossomo completo. Um exemplo de montagem de genoma pode ser visto na Figura 2
Figura 2 0 0 9 6 Montagem de genoma. A seqüência original é mostrada acima, e as seqüências que obtemos através do
A necessidade de se alinhar duas seqüências biológicas (ácidos nucléicos ou proteínas) de uma maneira correta pôde ser facilmente visualizada na seção anterior, no processo de montagem 0 0 9 3
0 0 de genomas. Mas o que seria um alinhamento correto9 4? Esta pergunta pode ser respondida de diversas maneiras, que variam em função do tipo de seqüência e da pergunta biológica que se deseja responder.
Inicialmente, para todos os tipos de alinhamento, a primeira tarefa é decidir se iremos realizar um alinhamento global, no qual todos os elementos de ambas as seqüências são utilizados para o alinhamento, ou local, no qual se procura por regiões parecidas entre as seqüências. Atualmente as técnicas de alinhamento global estão em desuso, já que são computacionalmente muito caras e não detectam uma série de casos especiais da biologia (como inversão de domínios em proteínas homólogas, por exemplo).
Um de seus poucos usos é para se encontrar seqüências muito relacionadas entre si, como genes parálogos, utilizados em análises filogenéticas. Para o processo de montagem de genomas e localização de genes utilizamos os métodos locais, já que desejamos alinhar uma parte de uma seqüência com a parte mais parecida localizada na outra. Mas como definir o que é 0 0 9 3
0 0 parecido9 4?
No caso de proteínas, usualmente se deseja alinhar as mesmas para procurar por possíveis proteínas parecidas em bancos de dados de proteínas. Para isso precisamos definir o quanto uma proteína é parecida com a outra já que, para cada posição, podemos encontrar 20 aminoácidos. 0 0 9 3
0 0 Assim foram criadas matrizes de valores que indicam o quanto custa9 4 para um aminoácido é substituído por outro em proteínas ortólogas. No caso de números positivos, isso indica que usualmente encontramos os dois aminoácidos ocupando a mesma posição em proteínas distintas. Números negativos indicam que estes aminoácidos são encontrados poucas vezes na mesma posição.
Uma das matrizes de substituição pode ser vista na figura 3. Figura 3 0 0 9 6 Matriz de substituição BLOSUM. Pode-se notar que aminoácidos com características parecidas, como o triptofamo (W) e a tirosina (Y) possuem valores de substituição positivos. No caso de nucleotídeos, usualmente desejamos realizar uma de duas tarefas: alinhá-los para procurar por seqüências parecidas com a inicial em outros organismos (para a realização de estudos filogenéticos, por exemplo) ou para a montagem de seqüências maiores (como na montagem de genomas). Aqui não necessitamos definir o quanto um nucleotídeo é parecido com outro, visto que tal informação não faz sentido do ponto de vista biológico.
ambas são compostas por 8 -hélices com mesmo arranjo topológico, ligam o grupo porfirínico e transportam moléculas de oxigênio.
Para o entendimento de toda essa complexidade, existe uma série de outros temas que devem ser estudados também como, por exemplo, as interações não-covalentes (eletrostáticas, pontes de hidrogênio e van der Waals), os efeitos da solvatação, assim como as atrações hidrofóbicas.
O progresso do seqüenciamento de polipeptídeos proporcionou avanços também da elucidação do proteoma, conjunto completo de todas as proteínas expressas na célula, como são modificadas, seu funcionamento e interação com outras moléculas. A ressonância nuclear magnética e a difração de raios-X são técnicas que muito ajudaram no entendimento do enovelamento de proteínas, de como elas reconhecem outras moléculas e catalizam reações químicas.
A bioinformática muito tem auxiliado no desenvolvimento de algoritmos e ferramentas para
o entendimento das proteínas. Apresentamos um poderoso conjunto dessas desses algoritmos e sua utilização no estudo de seqüência, estrutura e função de proteínas neste curso. Evolução Molecular e Filogenia
O objetivo dos estudos de evolução molecular consiste em compreender a importância dos dados moleculares como uma ferramenta auxiliar no estudo das relações filogenéticas entre os seres vivos. A análise molecular pode confirmar ou refutar o que a análise anatômica sugere ou fornecer pistas para os casos em que a filogenia de um determinado grupo de organismos não está bem definida para os pesquisadores.
Assim como a morfologia de um organismo, as suas moléculas também são características hereditárias. E a evolução dos seres vivos não seria possível se o material genético herdado de seus ancestrais não sofresse alterações.O estudo das relações evolutivas entre os seres vivos avançou muito após a descoberta do papel do DNA na determinação da hereditariedade. Os avanços na área bioquímica permitiram compreender quais eram os mecanismos responsáveis pelas modificações de características ao longo das gerações. Essas características, interpretadas como adaptações ao ambiente, eram a chave para a idéia de seleção natural proposta por Charles Darwin.
Chamamos de Evolução Molecular a área de estudos que procura determinar os processos envolvidos nas alterações das moléculas encontradas nos seres vivos e estabelecer padrões para essas alterações ao longo da escala evolutiva de tempo. Essa área de estudo depende de técnicas de laboratório que permitem o seqüenciamento de proteínas e ácidos nucléicos. Para isso, moléculas retiradas de organismos de grupos diferentes são seqüenciadas e comparadas. O estudo comparativo de DNA, RNA e proteínas pode fornecer indícios sobre relações filogenéticas entre grupos de seres vivos. Desde os anos 50, várias técnicas têm sido desenvolvidas em biologia molecular e utilizadas para estudos filogenéticos. Os métodos mais antigos e dispendiosos, como a eletroforese de proteínas, hibridização de DNA e métodos imunológicos logo foram substituídos pelo seqüenciamento de proteínas e principalmente de ácidos nucléicos, que se tornaram amplamente utilizados em estudos de relações filogenéticas entre populações ou espécies.
Os dados de seqüências de DNA foram utilizados para a montagem de árvores filogenéticas em organismos proximamente (homens e macacos) ou distantemente relacionados (eucariotos, eubacteria e archeoabacteria). A aplicação desses métodos logo levou ao desenvolvimento de medidas de distância genética e de montagem de árvores que expressassem as diferenças observadas entre os organismos. Alguns pesquisadores utilizam os princípios da cladística para realizar as comparações: eles procuram determinar quais seriam as condições ancestral e derivada da molécula analisada e constroem cladogramas a partir das condições derivadas. Portanto, os dados moleculares têm sido uma poderosa ferramenta de estudo da história evolutiva, de forma a
Se considerarmos casos em que a alteração da seqüência original de aminoácidos não modifica a forma e a função da proteína. (é o que se observa quando comparamos um gene e uma proteína encontrados em diferentes espécies: apesar das variações na seqüência de nucleotídeos e de aminoácidos, a proteína possui o mesmo arranjo espacial e pode exercer função semelhante em todos os grupos de seres vivos que a produzem.).
Portanto, a variabilidade que pode ser encontrada na estrutura de uma molécula não corresponde necessariamente a uma variabilidade de funções. As substituições de nucleotídeos (no DNA ou RNA) e de aminoácidos (nas proteínas) são portanto determinadas por uma taxa natural de mutações que ocorre nas moléculas ao longo do tempo. Os cientistas utilizam esse ritmo constante de mutação em uma molécula como um relógio molecular.
É importante ressaltar que cada proteína apresenta uma taxa de mutação diferente e, em alguns casos, regiões distintas da mesma molécula possuem ritmos diferentes de mutação.
Por que utilizar moléculas para o estudo da evolução dos seres vivos, quando a comparação da morfologia e a análise do registro fóssil podem fornecer boas hipóteses? Quanto mais características forem utilizadas na dedução das relações filogenéticas entre grupos de seres 0 0 vivos (^) 9 6 0 0 comparações morfológicas, dados moleculares, análise dos fósseis (^) 9 6mais confiável será a hipótese elaborada.
Bibliografia
1.Altschul, S. F., Gish, W., Miller, W., Myers, E. W. and Lipman, D. J. Basic Local Alignment Search Tool. Journal of Molecular Biology, 215: 403-410, 1990.
2.Baxevanis, A. D. and Ouellette, B. F. F. Bioinformatics A practical Guide to the Analysis of Genes and Proteins. John Wiley and Sons, New York, 2001.
3.Branden, C. e Tooze, J. Introduction to Protein Structure 2ª.ed .Garland Publishing, 1999
4.Claverie, J.-M., Poirot, O. and Lopez, F. The Difficulty of Identifying Genes in Anonymous Vertebrate Sequences. Computers and Chemistry, 21: 203-214, 1997.
5.Futuyma, D. J. .Biologia evolutiva. 2ª.ed Sociedade Brasileira de Genética, 1992
6.Gibas, C and Jambeck, P. Developing Bioinformatics Computer Skills. LeJeune, L. 0 0 O9 2 Reilly,
7.Graur, D. and Li, W. H. Fundamentals of Molecular Evolution. 2nd Edition. Sinauer Associates,
8.Higa R.H., Togawa R.C., Montagner A.J., Palandrani J.C., Okimoto I.K., Kuser P.R., Yamagishi M.E., Mancini A.L., Neshich G. STING Millennium Suite: Integrated Software for Extensive Analyses of 3D Structures of Proteins and Their Complexes. BMC Bioinformatics, 2004, 5(1):
9.http://en.wikipedia.org/wiki/DNA_sequencing - Seqüenciamento de DNA
10.http://en.wikipedia.org/wiki/Sequence_alignment - Alinhamento de seqüências
11.http://www.ncbi.nlm.nih.gov/Tools/ - Ferramentas de bioinformática
12.Lesk, A. M. Introduction to Bioinformatics. 2nd Edition. Oxford University Press, 2005.