









Estude fácil! Tem muito documento disponível na Docsity
Ganhe pontos ajudando outros esrudantes ou compre um plano Premium
Prepare-se para as provas
Estude fácil! Tem muito documento disponível na Docsity
Prepare-se para as provas com trabalhos de outros alunos como você, aqui na Docsity
Encontra documentos específicos para os exames da tua universidade
Prepare-se com as videoaulas e exercícios resolvidos criados a partir da grade da sua Universidade
Responda perguntas de provas passadas e avalie sua preparação.
Ganhe pontos para baixar
Ganhe pontos ajudando outros esrudantes ou compre um plano Premium
Recusros de bioinformatica aplicadas a ciências ômicas
Tipologia: Manuais, Projetos, Pesquisas
1 / 15
Esta página não é visível na pré-visualização
Não perca as partes importantes!










Review Article
Biosci. J., Uberlândia, v. 26, n. 3, p. 463-477, May/June 2010
463
RESUMO: As ciências ômicas tratam da análise global dos sistemas biológicos, integrando diferentes áreas do conhecimento, como a bioquímica, genética, fisiologia e computação, com o objetivo de isolar e caracterizar genes, proteínas e metabólitos, assim como estudar as interações entre eles, com base em técnicas experimentais, softwares e bancos de dados. A bioinformática por sua vez, propõe novas formas de ciência baseada na experimentação in silico , sendo muito dinâmica na sua atualização e fornecendo a base para geração de novos dados e conhecimentos que podem ser aplicados na pesquisa básica e na aplicada com o desenvolvimento de novos produtos e soluções. Este processo está intimamente relacionado à inovação tecnológica, que é conseguida unindo-se a biotecnologia e a bioinformática. Contudo, o objetivo desta revisão é apresentar uma pequena abordagem dos recursos de bioinformática aplicados às ciências ômicas, como genômica, transcriptômica, proteômica, interatômica, metabolômica, farmacogenômica, dentre outras.
PALAVRAS-CHAVE: Ômica. Bioinformática. Biotecnologia. Bancos de dados.
INTRODUÇÃO
Os dados gerados pelo sequenciamento dos genomas de diferentes organismos transformaram a biologia. A integração de várias áreas do conhecimento permitiu avançar os estudos em relação à genômica, os processos de transcrição das informações contidas nos genes, a transcriptômica, bem como a compreensão do conjunto dos produtos destes genes pela proteômica. No início desta década com o advento do genoma humano também se iniciava as discussões e as ações para uma nova era da biologia, a “era pós-genômica”. Neste contexto, promoveu-se o desenvolvimento e o aperfeiçoamento das técnicas que permitiram os avanços destas novas ciências ômicas (Figura 1), como a transcriptômica, proteômica e metabolômica, com o objetivo de isolar e caracterizar o RNA, as proteínas e os metabólitos, respectivamente; sendo possível devido também ao desenvolvimento da bioinformática. O termo “ômicos” refere-se à análise global dos sistemas biológicos. Além das citadas anteriormente, uma variedade de subdisciplinas
ômicas têm surgido, cada uma com seu próprio conjunto de instrumentos, técnicas, softwares e base de dados. Entre as tecnologias ômicas que impulsionam estas novas áreas de investigação, mencionam-se as tecnologias de DNA e microarrays , a espectrometria de massas e uma série de outras tecnologias e instrumentação que permitiram uma alta capacidade de análise (WINGENDER et al., 2007). O domínio da bioinformática cresceu em paralelo e com a internet, em que a rápida análise de dados e a troca de informações sobre os códigos biológicos e computacionais estão em convivência harmônica, por meio de suas múltiplas ramificações, gerenciando e integrando bancos de dados aplicáveis, e construindo sistemas in silico para simulação de formas naturais e modificadas de produtos específicos. Todos os projetos de sequenciamento genômico realizados e em andamento, tanto de procariotos como de eucariotos, continuam a nos lembrar que o nosso conhecimento sobre o funcionamento de um organismo ou célula, a nível molecular, é realmente muito limitado. Desta forma,
Received: 24/04/ Accepted: 06/10/
o aumento substancial de sequências e de informações produzidas pelo rápido avanço das ciências ômicas está ajudando a prover novos
caminhos da exploração de textos pela bioinformática (YANDELL; MAJOROS, 2002).
Figura 1. Representação esquemática das principais ciências ômicas
Tantos são os temas a serem discutidos sobre os vários aspectos da bioinformática, todos eles na fronteira do conhecimento. Por isso, apresentamos aqui uma pequena abordagem baseada nos seminários desenvolvidos no Programa de Pós-
Graduação em Genética e Bioquímica da Universidade Federal de Uberlândia na disciplina de Bioinformática. O quadro 1 apresenta páginas da web com recursos de bioinformática.
Quadro 1: Lista de páginas da Web com recursos de bioinformática e que são abordadas neste artigo. NOME ENDEREÇO PFAM http://pfam.jouy.inra.fr/ SANGER http://www.sanger.ac.uk/Software/Pfam/ Blast http://www.ncbi.nlm.nih.gov/BLAST CaM Target http:// calcium.uhnres.utoronto.ca/ctdb/ctdb/home.html CAP3 http://genome.cs.mtu.edu/cap/cap3.htm CAS http://www.cas.org/ Clustal http://www.clustal.org/ Cytoscape http://www.cytoscape.org/ Drug DataBase http://chrom.tutms.tut.ac.jp/JINNO/DRUGDATA/00database.html Easy Align http://www.scriptspot.com/3ds-max/easyalign Entrez Protein http://www.ncbi.nlm.nih.gov/sites/entrez?db=protein GenBank http://www.ncbi.nlm.nih.gov/Genbank GENE 3D http://gene3d.biochem.ucl.ac.uk/Gene3D/ Gene Ontology http://www.geneontology.org/ Google http://www.google.com GoogleScholar http://scholar.google.com HiMAP http://www.himap.org/ HoGenom http://ralyx.inria.fr/2007/Raweb/helix/uid41.html INSDC http://insdc.org Interpare http://interpare.net/ InterPro http://www.ebi.ac.uk/interpro/ KEGG http://www.genome.jp/kegg/ NCBI http://www.ncbi.nlm.nih.gov Osprey http://biodata.mshri.on.ca/osprey/servlet/Index
válidos e novos. Embora os algoritmos atuais sejam capazes de descobrir esses padrões, os analistas
humanos são os principais responsáveis por essa determinação.
Figura 2. Uma visão do processamento da linguagem natural biológica (BioNLP) e aplicações de text mining na biologia. O tópico central é envolvido por sete círculos com suas aplicações correspondentes dadas por outras caixas posteriores: NER (nome da identidade reconhecida), SDI (informação seletiva disseminada), Information extration (obtenção de informações), Análise por microarrays , Recuperação de artigos, Interações protéicas e relações e BioNLP. Modificado de: Krallinger e Valencia (2005).
A evolução da informática conta um pouco sobre o surgimento do processo de data mining. Nos anos 60, os computadores tinham capacidade precária não dispondo de mecanismos eficientes para armazenamento de grandes volumes de dados. No início da década de 70 até 80, um grande avanço marcou os meios físicos de armazenamento de dados, o desenvolvimento de softwares para o gerenciamento de dados, denominados de Sistemas Gerenciadores de Bancos de Dados, e logo após o surgimento do modelo relacional, permitindo rápida recuperação de dados dirigidos. Nos anos 90, surgem os Bancos de Dados Multidimensionais ou Data Warehouses que propiciam o processo analítico on-line (OLAP). A diferença entre o OLAP e o data mining é que no primeiro o analista gera as hipóteses que podem ser validadas ou negadas, e no segundo o próprio sistema gera as hipóteses. O processo geral de descoberta de conhecimento em banco de dados é composto por diversas etapas. As principais tarefas são associação, agrupamento e descoberta de regras de classificação. A tarefa de classificação pode ser realizada por algoritmos convencionais ou por
métodos de inteligência artificial como, por exemplo, as redes neurais, algoritmos evolucionários, dentre outros. Além disso, trabalhos têm demonstrado a importância desta ferramenta para estudos científicos. Baseando-se na literatura e análises in silico, pesquisadores utilizaram o data mining e fizeram uma seleção de 189 candidatos à vacina contra o M. tuberculosis. Este repertório foi ranqueado para gerar uma lista com os 45 melhores antígenos, selecionando genes que abrangem todos os estágios da infecção, sendo incorporados no rBCG ou vacinas baseadas em subunidades (ZVI et al., 2008).
Sequenciamento do DNA e a Genômica Os mecanismos envolvidos na expressão e interação dos genes, assim como a compreensão das redes funcionais estabelecidas pelas proteínas, fazem com que, no cenário científico atual, a genômica e a proteômica estejam cada vez mais em evidência. Quatro são os principais bancos de dados utilizados para as diferentes análises de nucleotídeos. Um deles é o INSDC
DATABASE ) que disponibiliza um repertório de sequências e é resultado da associação de três bancos de dados parceiros, o DDBJ ( DATA BANK OF JAPAN ), o EMBL ( EMBL NUCLEOTIDE SEQUENCE DATABASE ) e o GenBank. Os registros da associação EMBL/GenBank/DDBJ incluem genes individuais, genomas completos, RNAs, anotações, sequências expressas, cDNAs e sequências sintéticas. Devido à sua designação como sendo um provedor de dados primários, o banco EMBL/DDBJ/GenBank é a fonte inicial de muitos bancos de dados em biologia molecular (TATENO et al., 2005; KANZ et al., 2005 e BENSON et al., 2005). Um exemplo de banco de dados de sequências genômicas secundárias de nucleotídeos é o Ensembl, uma fonte compreensível de anotações estáveis, em que genes são anotados por evidências derivadas de proteínas conhecidas, cDNAs e sequências expressas. Novos genes são determinados pelo sistema de construção de genes, incorporando uma variedade de métodos, incluindo homologia e predição pela aplicação do HMM ( HIDDEN MARKOV MODEL ) (HUBBARD et al., 2005). O RefSeq ( REFERENCE SEQUENCE ) é um banco que disponibiliza sequências compreensíveis, integradas e não-redundantes, incluindo DNA genômico, transcritos e proteínas para diversos organismos (PRUITT et al., 2005). Por outro lado, o Genome Review representa uma versão da sequência original de um cromossomo ou plasmídeo, com informações importadas de fontes que incluem o UniProt ( UNIVERSAL PROTEIN RESOURCE ), Gene Ontology (GO), projeto GOA ( GO ANNOTATION ), InterPro e HoGenom, além de serem disponibilizadas referências cruzadas com 18 bancos de dados (KERSEY et al., 2005). Milhares de sequências são obtidas através de técnicas, como o shotgun que foi usada, entre outros, no genoma de Apis mellifera (THE HONEYBEE GENOME SEQUENCING CONSORTIUM, 2006). As sequências obtidas são analisadas e reunidas por software, como CAP3. Após a organização das sequências é verificada a existência de redundância, a identificação das regiões codificadoras e, a seguir, identificação de funções. Os níveis de redundância são comparados usando o software Phrap, que foi usado no genoma da cana de açúcar (VETTORE et al., 2003). Além disso, para a identificação do gene, em seres eucariotos, dois softwares foram muito utilizados, o Glimmer (DELCHER et al., 1999) e o Genemark (BORODOVSKY; MCININCH, 1993). Por meio
deles se analisa as janelas de leitura na sequência (ORFs), sendo cada uma alinhada e comparada com as de outras espécies conhecidas, depositadas em bancos de dados como o GenBank e o SwissProt. A anotação funcional se dá através da comparação das sequências obtidas com as depositadas em bancos de dados como o GenBank e o Blast, sendo o último uma ferramenta mais amplamente utilizada para esse tipo de comparação (ALTSCHUL et al., 1990). A anotação é considerada completa quando o genoma está decodificado e minimamente anotado, com seus genes identificados e conferidos. Em 2001, por junção da iniciativa pública ( INTERNATIONAL HUMAN GENOME SEQUENCING CONSORTIUM , 2001) e privada (CELERA) (VENTER et al., 2001) realizou-se o projeto Genoma Humano. Os objetivos deste projeto foram identificar todos os genes estimados do DNA humano, determinar as sequências de bases, armazenar as informações em banco de dados e desenvolver ferramentas para a análise dos dados. Entretanto, de todos os genes que já foram seqüenciados, em média, apenas 50% codificam proteínas de função conhecida. Sobre o genoma humano em particular, o banco Genew como parte do HUGO ( HUMAN GENOME ORGANIZATION ), mantém um depósito de nomes e símbolos de genes, para se definir uma nomenclatura de dados submetidos por este Genoma (WAIN et al., 2002). Outros projetos também foram desenvolvidos, como o Projeto EST ( EXPRESSED SEQUENCE TAG ), que ao invés de sequenciar todo o genoma de um organismo e depois tentar descobrir quais são seus genes, apenas os genes expressos pelo organismo são capturados e seqüenciados. Contudo, surgiu um importante problema computacional, o clustering. Ou seja, qual o modo de agrupar todos os ESTs que correspondem ao mesmo gene em um único grupo ( cluster )? Assim, vários métodos foram propostos e a partir do agrupamento de tais dados, foram criados bancos de dados EST (dbEST), que agrupam a informação de milhões de ESTs. Mesmo com o grande avanço provocado pela bioinformática, ainda persistem vários desafios, como por exemplo, o Gene Ontology que ainda não possui condições consistentes para diferenciar todos os processos biológicos, e os dados de microarray que ainda não possuem uma grande reprodução de dados, resultando em um baixo poder estatístico. Muitos métodos estatísticos padrões falham por causa de problemas com o tamanho das amostragens podendo levar a uma desatualização dos bancos de dados comumente utilizados.
capturando a sequência e as estruturas secundárias e terciárias (MACKE et al., 2001). Alguns ncRNAs não dependem de uma estrutura bem definida, permitindo-se optar por uma busca baseada essencialmente na similaridade de sequência conservada ao longo da evolução, sendo suficiente para identificá-los no genoma. Nesse sentido, existem programas especializados na busca por apenas homologia de sequência (perfil-HMMs) e aqueles disponíveis para realizar o alinhamento e folding ao mesmo tempo. Dentre esses se encontram: o FOLDALIGN, capaz de detectar estruturas locais ao invés de identificar estruturas globais com vários loops (GORODKIN et al., 2001), e o DYNALIGN, que reduz a complexidade computacional limitando o espaço de busca e o tamanho dos loops presentes nas estruturas internas do RNA (MATHEWS; TURNER, 2002). As desvantagens desses dois últimos residem na sua incapacidade de explicitar regiões que não adquirem uma determinada estrutura e na ineficiência do alinhamento baseado na estrutura da molécula. Em casos excepcionais, em que as sequências correspondem a determinados transcritos e sabe-se que a estrutura global desempenha um papel
essencial na sua função, pode-se predizer essa estrutura para cada sequência individual através de softwares específicos. Nesse sentido, as duas ferramentas mais conhecidas são MFOLD e RNAFOLD, que predizem a estrutura mais estável a partir de uma sequência pré-estabelecida (ZUKER, 1989; SCHUSTER et al., 1994). A segunda estratégia inclui a predição ab- initio de ncRNAs, o que constitui o maior desfio na busca dessas moléculas não-codificantes. Também existem algoritmos computacionais eficientes que objetivam predizer estruturas estáveis de RNA em grande escala genômica, como o RNAPLFOLD. Contudo, o potencial desse programa na detecção de ncRNAs ainda não foi sistematicamente investigado (MEYER, 2007). Uma das ferramentas mais utilizadas na análise transcriptômica é a tecnologia de microarrays (Figura 3) que constitui uma das principais ferramentas para estudos de expressão gênica (SCHENA et al., 1996), sendo muito aproveitada na avaliação de aspectos da biologia de sistemas e o estudo dos perfis de interação entre diversas biomoléculas (KITANO, 2002).
Figura 3: Experimento de microarray.
O primeiro microarray surgiu em meados da década de 1990 e possuía 45 sondas de cDNA (SCHENA et al., 1995). Com os aprimoramentos tecnológicos, no ano seguinte à sua publicação, pesquisadores apresentaram trabalhos com cerca de 1000 sondas de arrays (SCHENA et al., 1996; SHALON et al., 1996), sendo que atualmente é comum encontrar trabalhos que utilizem dezenas de milhares de sondas. A AFFYMETRIX foi a empresa pioneira em microarrays , trabalhando com a
metodologia de apenas um canal (uma cor). Na tecnologia de microarrays com lâminas de vidro, várias sequências de DNA conhecidas (sondas), são impressas em uma mesma lâmina. Nos arrays de duas cores, os mRNAs são extraídos de células pertencentes às duas condições distintas e por meio de transcrição reversa, utilizando oligonucleotídeos marcados, o cDNA é obtido. Os oligonucleotídeos são marcados com corantes fluorescentes (cianinas), sendo o corante Cy3 verde, e o Cy5 , vermelho como
mostra o esquema 1. Após toda a experimentação biológica, as marcações são interpretadas por um software específico e os dados são analisados por ferramentas estatísticas.
Proteômica e estrutura de proteínas “Como”, “onde”, “quando” e “por que” são produzidas centenas de milhares de proteínas individuais em um organismo vivo? Como elas interagem entre si e com outras moléculas para construir uma célula? Como elas funcionam e conduzem o desenvolvimento e crescimento programado e interagem com os ambientes biótico e abiótico? Responder todas essas questões é o objetivo da proteômica, que como uma metodologia, deve ser considerada parte de uma análise integrativa e multidisciplinar em diferentes níveis, estendendo desde os genes até o fenótipo expresso nas proteínas. Estas análises devem envolver as tecnologias “ômicas” (genômica, transcriptômica, proteômica e metabolômica) bem como as técnicas de bioquímica clássica e biologia celular. No estudo completo das proteínas, integrando estrutura e função, os pesquisadores utilizam bancos de dados diversos que possam atender os diferentes ramos da proteômica. Um dos mais usados é o banco de dados Entrez Protein, um depósito de sequências disponibilizado pelo NCBI e compilado através de uma variedade de fontes. O banco contêm as sequências de proteínas submetidas aos bancos PIR ( PROTEIN INFORMATION RESOURCE ) (WU et al., 2003), UniProtKB/Swiss-Prot, PRF ( PROTEIN RESEARCH FOUNDATION ) e PDB. Outro, também muito utilizado é o UniProt, um catálogo de dados de sequências e funções de proteínas, mantido pelo consórcio UniProt. O consórcio é uma colaboração entre o SIB ( SWISS INSTITUTE OF BIOINFORMATICS ), o EBI ( EUROPEAN BIOINFORMATICS INSTITUTE ) e o PIR. O banco UniProt é compreendido por três componentes, o acurado UniProtKB ( UNIPROT KNOWLEDGEBASE ), que continuou o trabalho do UniProtKB/Swiss-Prot; o UniProtKB/TrEMBL (BOECKMANN et al., 2003) e o PIR. O UniProtKB/Swiss-Prot é um banco anotado manualmente com informações extraídas da literatura e análises computacionais, contendo níveis mínimos de redundância e alto nível de integração com outros bancos de dados (BAIROCh et al., 2005). Na análise de dados obtidos utilizando a eletroforese bidimensional, o banco de dados SWISS-2DPAGE (HOOGLAND et al., 2004) é o mais útil, pois armazena resultados experimentais que utilizam esta metodologia e acrescenta uma
variedade de referências cruzadas com outros bancos de dados semelhantes, além do UniProtKB/Swiss-Prot. No entanto, se o objetivo é descrever a função molecular, o contexto biológico e a localização celular do produto gênico, o Gene Ontology é o mais indicado (CAMON et al., 2004). O grande desafio enfrentado por estudiosos e bioinformatas é descobrir qual a estrutura tridimensional adotada pelas proteínas a partir da estrutura primária. No entanto, as ferramentas in silico disponíveis atualmente ainda não são totalmente confiáveis. Os métodos experimentais utilizados para obtenção da estrutura tridimensional são cristalografia por difração de raio-X e ressonância magnética nuclear. Entretanto, esses métodos podem ser onerosos e de difícil execução, além de apresentarem limitações técnicas. Estas e outras dificuldades fazem com que a quantidade de estruturas de proteínas decifradas ainda compõe uma pequena fração do total de proteínas existentes (PROSDOCIMI et al., 2003 ). Um método alternativo e não-experimental é a modelagem molecular, baseada em conhecimentos estereoquímicos dos aminoácidos. Uma das maneiras de se fazer a modelagem molecular é através da homologia entre sequências, em que uma delas já possui forma tridimensional definida. O primeiro passo é a pesquisa de proteínas homólogas em bancos de dados de estruturas de proteínas como o PDB ( PROTEIN DATABASE BANK ) (HULO et al., 2008), que é uma colaboração entre o RCSB ( RESEARCH COLLABORATORY FOR STRUCTURAL BIOINFORMATICS ), o MSD-EBI ( MACROMOLECULAR STRUCTURAL DATABASE ) e o PDBj ( PROTEIN DATA BANK OF JAPAN ) (BERMAN et al., 2000). A seguir, deve-se realizar o alinhamento das sequências de aminoácido das proteínas homólogas e a proteína- alvo, através do Clustal, por exemplo. A modelagem é realizada através de softwares como o Modeller, SWISS-MODEL, 3D-PSSM, dentre outros. Esses programas normalmente procuram encontrar a estrutura terciária que melhor se aproxime da disposição dos átomos das proteínas utilizadas como modelo, e ao mesmo tempo atenda às restrições físico-químicas (FORSLUND et al., 2008). Outro tipo de modelagem é o Threading, que compara estrutura de uma proteína teste com a estrutura de outra proteína conhecida com uma pequena similaridade de sequência. Neste modelo é levada em consideração a distância entre os resíduos de aminoácidos, a estrutura secundária e as características físico-químicas (RATTEI et al., 2008).
Em 2004, uma série de relatos destacaram a importância de se fornecer informações. Entre elas, a base de dados ArMet, que descreve a arquitetura geral para metabolômica (JENKINS et al., 2004) e MIAMet, que demonstra considerações sobre o mínimo de informações de um experimento em metabolômica (Bino et al., 2004). Estas considerações têm sido concretizadas apenas parcialmente em bases de dados disponíveis sobre metabolômica de plantas (KOPKA et al., 2005). Para uma série de compostos vegetais, várias empresas de agro-biotecnologia têm publicado dados dos metabólitos referentes ao valor nutricional das culturas. O mais abrangente é o CAS ( CHEMICAL ABSTRACTS ), que inclui informações sobre milhões de compostos, entre eles, metabólitos biogênicos. No entanto, este serviço vem com elevados encargos e não contém links para bases de dados genômicos.
Farmacogenômica Um objetivo nos estágios iniciais do desenvolvimento de fármacos é a identificação de um ou mais compostos bioativos. Um composto bioativo é qualquer substância que apresenta a atividade biológica que se procura (BUCHWALD; BODOR, 1998). Qualquer composto com atividade farmacológica ou compostos similares normalmente possuem atividades parecidas, mas variam em sua potência e especificidade. Baseados em um composto bioativo, os cientistas investigam um grande número de moléculas parecidas de forma a otimizar as propriedades farmacológicas desejadas. Para uma busca sistemática, seria muito importante o entendimento de como as variações nas características estruturais e físico-químicas da família de moléculas estão relacionadas com suas propriedades farmacológicas. O problema é que existem muitos descritores diferentes para caracterizar as moléculas. Eles incluem características estruturais, como a natureza e distribuição dos substituintes; características experimentais, como solubilidade em solventes aquosos e orgânicos, ou momentos dipolo; e características calculadas computacionalmente, como cargas parciais dos átomos. Estes fatores sejam eles de caráter eletrônico, hidrofóbico ou estérico, influenciam na interação do fármaco com a biofase, e na sua distribuição nos compartimentos que compõem o sistema biológico. Assim, dois fármacos com estruturas químicas semelhantes, diferenciando-se apenas por um átomo ou posição que este ocupa na molécula, podem apresentar diferenças quanto às suas propriedades físico-químicas e, conseqüentemente,
quanto à atividade biológica, tanto do ponto de vista quantitativo como qualitativo (ESTRADA, 2008). Os bancos de dados mais utilizados na análise da interação de fármacos ou compostos ativos e outra molécula biologicamente ativa são: KEGG, Drug DataBase e PubChem. A farmacogenômica surgiu em 1995, da união da farmacogenética com a genômica e a biotecnologia (NEBERT; VESELL, 2004), sendo definida como o estudo da expressão de genes individuais relevantes na susceptibilidade a doenças, bem como resposta a fármacos em níveis celular, tecidual, individual ou populacional (PIRAZZOLI; RECCHIA, 2004). Como muitos outros ramos das ciências biomédicas, foi impulsionada pelos avanços da genômica, que conduziram às expectativas de que a segurança e a eficácia dos medicamentos seriam melhoradas pela personalização da terapêutica, com base nos dados genéticos (FONTANA et al., 2006). Para o seu estudo, a farmacogenômica utiliza técnicas genômicas, como o sequenciamento de DNA, mapeamento genético e a bioinformática para facilitar as pesquisas na identificação das bases genéticas da variação inter-individual e inter-racial na eficácia, metabolismo e transporte com fármacos (MANCINELLI et al., 2000). A genômica combinada com as ferramentas da bioinformática permite dissecar as bases genéticas das doenças multifatoriais e têm mostrado pontos mais convenientes para melhor ação medicamentosa, aumentando o número de opções moleculares para o tratamento de doenças (DREWS, 2000).
Biotecnologia A biotecnologia é o uso de conhecimentos sobre os processos biológicos e sobre as propriedades dos seres vivos, com o fim de resolver problemas e criar produtos de utilidade (ANTUNES et al., 2006). Esse processo surgiu da necessidade de se suprir as transformações globais que ocorreram na ciência e no mercado. Desta forma, a biotecnologia está intimamente relacionada à inovação tecnológica, uma vez que propõe o desenvolvimento de novas tecnologias e produtos, aplicando as informações desenvolvidas na pesquisa. Neste contexto, dentro da biotecnologia estão incluídas as pesquisas sobre transgênicos, genômica, proteômica, terapia gênica, entre outras, sendo que para todas essas áreas a bioinformática vem se tornando uma das ferramentas mais utilizadas. A bioinformática consiste na análise em bancos de dados e utilizando softwares visam dar novos rumos à pesquisa, analisando dados e
simulando experimentos. Essa tecnologia propõe novas formas de ciência baseada na experimentação in silico , onde podemos prever estruturas de proteínas e moléculas, realizar testes de interação, inibição ou excitação de moléculas, criar inibidores, moléculas de interferência, entre outras atividades. Porém, é fundamental que sejam desenvolvidas pesquisas para alimentar esses bancos de dados, assim como organizá-los em uma linguagem universal de forma a facilitar o text mining e data mining. Desta forma, o desenvolvimento da bioinformática está relacionado à biotecnologia a partir do momento que geramos novos dados e conhecimentos que podem ser aplicados para o desenvolvimento de novos produtos e soluções. Atualmente no Brasil existem 39 empresas e entidades cadastradas no site da SOCIEDADE BRASILEIRA DE BIOTECNOLOGIA que atuam na área de Biotecnologia. Além disso, temos 53 grupos de pesquisa biotecnológica na área de biologia animal, 16 em biologia humana e 50 em biologia vegetal. Em relação ao ensino, são 18 cursos de graduação e 12 de pós-graduação com ênfase ou em biotecnologia em Universidades federais, estaduais e faculdades particulares (http//:www.sbb.br, acessado em 24/04/2008). Para o desenvolvimento da Biotecnologia e, consequentemente, de todas as tecnologias no Brasil é necessário que o governo, a universidade e as empresas percebam esse processo como um sistema multisetorial tecnológico de inovação que abrange diversos setores econômicos (ANTUNES et al., 2006).
Um reflexo disso está na análise dos números de patentes no Brasil que vêm crescendo nos últimos anos, mostrando um retrato dos avanços tecnológicos e do domínio de tecnologias que os centros de pesquisa vêm alcançando. De 2005 até março de 2007, foram realizados 550 depósitos de patentes no Brasil, sendo que destes os principais depositantes são empresas norte-americanas e européias, e apenas 4 entidades brasileiras apresentam um desempenho considerável na área do meio ambiente. Talvez o grande problema não seja o baixo avanço tecnológico, mas a falta de agilidade dos julgamentos dos processos de patente no INPI. Desta forma, é imprescindível conhecer as tecnologias mais avançadas e capacitar profissionais para o domínio da bioinformática, uma vez que existe uma tendência da evolução da economia global baseada na biotecnologia. As decisões sobre a participação nesse mercado dependem das ações que estão sendo desenvolvidas no presente, sendo que a interação universidade, empresa e governo é a base para garantir ao Brasil essa gestão.
AGRADECIMENTOS
Este trabalho é resultado do aprendizado obtido na disciplina Bioinformática oferecida pelo Prof. Dr. Foued Salmen Espindola e realizada de março a maio de 2008 no Curso de Pós-graduação em Genética e Bioquímica, da Universidade Federal de Uberlândia, Uberlândia/MG, e desta forma agradecemos às Instituições e Agências de fomento que apóiam cada um de nós, como UFU, CAPES, CNPq e FAPEMIG.
ABSTRACT: The omic sciences had a wide point of view of the biological systems, integrating different knowledgement areas, as biochemistry, genetics and physiology, with the aim of isolation and characterization of genes, proteins and metabolites as well study their interactions, based on experimental techniques, softwares and data banks. Bioinformatics proposes a new science, which is based on in silico experimentation, being very dynamic in its update and also can provides the basis for generation of new data and knowledge that can be applied in basic research and applied to the development of new products and solutions. This process is closely related to technological innovation, which is achieved joining biotechnology and bioinformatics. However, the objective of this review is to present a small approach of bioinformatics resources applied to the omics science, like genomics, transcriptomics, proteomics, interatomics, metabolomics, pharmacogenomics, among others.
KEYWORDS: Omics. Bioinformatics. Biotechnology. Data base.
ALTSCHUL, S. F. et al. Basic local alignment search tool. Journal of Molecular Biology , San Diego, v. 215, p. 403-410, 1990.
GORODKIN, J.; STRICKLIN, S. L.; STORMO, G. D. Discovering common stem-loop motifs in unaligned RNA sequences. Nucleic Acids Research , Oxford, v. 29, p. 2135-2144, 2001.
HOOGLAND, C. et al. SWISS-2DPAGE, ten years later. Proteomics , Weinheim, v. 4, p. 2352-2356, 2004.
HORNING, E. C.; HORNING, M. G. Human metabolic profiles obtained by GC and GC/MS. Journal of Chromatographic Science , Niles, v. 9, p. 129–140, 1971.
HUBBARD, T. et al. Ensembl 2005. Nucleic Acids Research , Oxford, v. 33; p.447–453, 2005.
HULO, N. et al. The 20 years of PROSITE. Nucleic Acids Research , Oxford, v. 36, p. 245-249, 2008.
ITO, T. et al. A comprehensive two-hybrid analysis to explore the yeast protein interactome. Proceedings of the National Academy of Sciences, Washington, v. 98, p. 4569-4574, 2001.
JENKINS, H. et al. A proposed framework for the description of plant metabolomics experiments and their results. Nature Biotechnology , New York, v. 22, p. 1601–1605, 2004.
KANZ, C. et al. The EMBL nucleotide sequence database. Nucleic Acids Research , Oxford, v. 33, p. 29–33,
KEMMEREN, P. et al. Protein interaction verification and functional annotation by integrated analysis of genome-scale data. Molecular Cell , St. Louis, v. 9, p.1133–1143, 2002.
KERSEY, P. J. et al. Integr8 and genome reviews: integrated views of complete genomes and proteomes. Nucleic Acids Research , Oxford, v. 33, p.297–302, 2005.
KITANO, H. Systems biology: a brief overview. Science , Washington, v. 295, p. 1662-1664, 2002.
KLEIN, R. J.; EDDY, S. R. RSEARCH: Finding homologs of single structured RNA sequences. BMC Bioinformatics , London, v. 4, p. 44, 2003.
KOPKA, J. et al. [email protected]: the Golm metabolome database. Bioinformatics , Oxford, v. 21, p.1635– 1638, 2005.
KRALLINGER, M.; VALENCIA, A. Text-mining and information-retrieval services for molecular biology. Genome Biology , London, v. 6, p. 224, 2005.
LIMVIPHUVADH, V. et al. The commonality of protein interaction networks determined in neurodegenerative disorders (NDDs). Bioinformatics , Oxford, v. 23, p. 2129-2138, 2007.
MANCINELLI, L.; CRONIN, M.; SADÉE, W. Pharmacogenomics: the promise of personalized medicine. American Association of Pharmaceutical Scientists , Arlington, v. 2, p. E4, 2000.
MATHEWS, D. H.; TURNER, D. H. Dynalign: an algorithm for finding the secondary structure common to two RNA sequences. Journal of Molecular Biology , San Diego, v. 317, p. 191-203, 2002.
MATTICK, J. S. Challenging the dogma: the hidden layer of non-protein-coding RNAs in complex organisms. BioEssays , Hoboken, v. 25, p. 930-939, 2003.
MATTICK, J. S. Non-coding RNAs: the architects of eukaryotic complexity. EMBO Reports , Heidelberg, v. 2, p. 986-991, 2001.
MATTICK, J. S.; GARDEN, M. J. The evolution of controlled multitasked gene networks: the role of introns and other noncoding RNAs in the development of complex organisms. Molecular Biology and Evolution, Oxford, v. 18, p.1611-1630, 2001.
MEYER, I. M. A practical guide to the art of RNA gene prediction. Brief in Bioinformatics , Oxford, v. 8, p. 396-414, 2007.
MULDER, N. J. et al. InterPro: progress and status in 2005. Nucleic Acids Research , Oxford, v. 33, p. 201– 205, 2005.
NEBERT, D. W.; VESELL, E. S. Advances in pharmacogenomics and individualized drug therapy: exciting challenges that lie ahead. European Journal Pharmacology , Amsterdam, v. 500, p. 267-280, 2004.
PIRAZZOLI, A.; RECCHIA, G. Pharmacogenetics and pharmacogenomics: are they still promising? Pharmacology Research , Maryland Heights, v. 49, p. 357-361, 2004.
PROSDOCIMI, F. et al. Bioinformática: manual do usuário. Biotecnologia Ciência e Desenvolvimento , Brasília, v. 29, p. 12-25, 2003.
PRUITT, K. D.; TATUSOVA, T.; MAGLOTT, D. R. NCBI Reference Sequence (RefSeq): a curated non- redundant sequence database of genomes, transcripts and proteins. Nucleic Acids Research , Oxford, v. 33, p. 501–504, 2005.
QUEVILLON, E. et al. InterProScan: protein domains identifier. Nucleic Acids Research , Oxford, v. 33, p. 116–120, 2005.
RATTEI, T. et al. SIMAP-- Structuring the network of protein similarities. Nucleic Acids Research , Oxford, v. 36, p. 289-292, 2008.
RUAL, J. F. Towards a proteome-scale map of the human protein-protein interaction network. Nature , London, v. 437, p. 1173-1178, 2005.
SANCHEZ, C. et al. Grasping at molecular interactions and genetic networks in Drosophila melanogaster using FlyNets, an Internet database. Nucleic Acids Research , Oxford, v. 27, p. 89-94, 1999.
SCHENA, M. et al. Quantitative monitoring of gene expression patterns with a complementary DNA microarray. Science , Washington, v. 270, p. 467-470, 1995.
SCHENA, M. et al. Parallel human genome analysis: microarray-based expression monitoring of 1000 genes. Proceedings of the National Academy of Sciences, Washington, v. 93, p. 10614-10619, 1996.
SCHUSTER, P. et al. From sequences to shapes and back: a case study in RNA secondary structures. Proceedings of the National Academy of Sciences, Washington, v. 255, p. 279-284, 1994.
SHALON, D.; SMITH, S. J.; BROWN, P. O. A DNA microarray system for analyzing complex DNA samples using two-color fluorescent probe hybridization. Genome Research , New York, v. 6, p. 639-645, 1996.
SHARAN, R.; IDEKER, T. Modeling cellular machinery through biological network comparison. Nature Biotechnology , New York, v. 24, p. 427-433, 2006.
TATENO, Y. et al. DDBJ in collaboration with mass-sequencing teams on annotation. Nucleic Acids Research , Oxford, v. 33, p. 25–28, 2005.
THE HONEYBEE GENOME SEQUENCING CONSORTIUM. Insights into social insects from the genome of the honeybee Apis mellifera. Nature , London, v. 443, p. 931–949, 2006.