Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad


Bases de datos bioinformáticos, Ejercicios de Bioinformática

Taller Bases de datos bioinformáticos

Tipo: Ejercicios

2022/2023

Subido el 14/05/2023

camila-rueda-3
camila-rueda-3 🇨🇴

1 documento

1 / 24

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
TALLER 1: USOS DE DIFERENTES BASES DE DATOS DE SECUENCIAS
Michel Camila Rueda Garzón, [email protected], 070150192020
PARTE 1 PudMed (https://pubmed.ncbi.nlm.nih.gov/)
Búsqueda racional de bibliografía
1. ¿Qué tipo de base de datos es MeSH? Explique brevemente.
MeSH (Medical Subject Headings) es el tesauro de vocabulario controlado por NLM
utilizado para indexar artículos para PubMed.
Usar la base de datos MeSH para encontrar MeSH términos, incluidos subtítulos,
tipos de publicación, conceptos suplementarios y Acciones farmacológicas y, a
continuación, cree una búsqueda en PubMed.
2. Ingrese a MeSH y defina los siguientes términos:
a. Metabolomic, Proteomics, Genomics, Metagenomics, Epigenomics, Glycomics,
Nutrigenomics, DNA Barcoding.
Metabolómica: La identificación sistemática y cuantificación de todos los productos
metabólicos de una célula, tejido, órgano u organismo bajo condiciones variables. El
metabolome de una célula u organismo es una colección dinámica de metabolitos que
representan su respuesta neta a las condiciones actuales.
Proteómica: El estudio sistemático del complemento completo de proteínas
(PROTEOMA) de los organismos.
Genómica: El estudio sistemático de las secuencias completas de ADN (GENOMA)
de los organismos. Se incluye la construcción de mapas genéticos, físicos y de
transcripción completos, y el análisis de esta información genómica estructural a
escala global, como en GENOME WIDE ASSOCIATION STUDIES.
Metagenómica: El estudio sistemático de los GENOMAS de ensamblajes de
organismos.
Epigenómica: El estudio sistemático de los cambios globales en la expresión génica
se debe a los PROCESOS EPIGENÉTICOS y no a los cambios en la secuencia de
bases del ADN.
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18

Vista previa parcial del texto

¡Descarga Bases de datos bioinformáticos y más Ejercicios en PDF de Bioinformática solo en Docsity!

TALLER 1: USOS DE DIFERENTES BASES DE DATOS DE SECUENCIAS

Michel Camila Rueda Garzón, [email protected], 070150192020 PARTE 1 – PudMed (https://pubmed.ncbi.nlm.nih.gov/) Búsqueda racional de bibliografía

  1. ¿Qué tipo de base de datos es MeSH? Explique brevemente. MeSH (Medical Subject Headings) es el tesauro de vocabulario controlado por NLM utilizado para indexar artículos para PubMed. Usar la base de datos MeSH para encontrar MeSH términos, incluidos subtítulos, tipos de publicación, conceptos suplementarios y Acciones farmacológicas y, a continuación, cree una búsqueda en PubMed.
  2. Ingrese a MeSH y defina los siguientes términos: a. Metabolomic, Proteomics, Genomics, Metagenomics, Epigenomics, Glycomics, Nutrigenomics, DNA Barcoding. Metabolómica: La identificación sistemática y cuantificación de todos los productos metabólicos de una célula, tejido, órgano u organismo bajo condiciones variables. El metabolome de una célula u organismo es una colección dinámica de metabolitos que representan su respuesta neta a las condiciones actuales. Proteómica: El estudio sistemático del complemento completo de proteínas (PROTEOMA) de los organismos. Genómica: El estudio sistemático de las secuencias completas de ADN (GENOMA) de los organismos. Se incluye la construcción de mapas genéticos, físicos y de transcripción completos, y el análisis de esta información genómica estructural a escala global, como en GENOME WIDE ASSOCIATION STUDIES. Metagenómica: El estudio sistemático de los GENOMAS de ensamblajes de organismos. Epigenómica: El estudio sistemático de los cambios globales en la expresión génica se debe a los PROCESOS EPIGENÉTICOS y no a los cambios en la secuencia de bases del ADN.

Glucómica: El estudio sistemático de la estructura y función del conjunto completo de glicanos (el glicoma) producidos en un solo organismo y la identificación de todos los genes que codifican glicoproteínas. Nutrigenómica: El estudio de la relación entre la FISIOLOGÍA NUTRICIONAL y la composición genética. Incluye el efecto de diferentes componentes de los alimentos sobre la EXPRESIÓN GÉNICA y cómo las variaciones en los GENES afectan las respuestas a los componentes de los alimentos. Código de barras de ADN, taxonómico: Técnicas para estandarizar y acelerar la identificación taxonómica o clasificación de organismos que se basan en descifrar la secuencia de una o unas pocas regiones de ADN conocidas como el "código de barras de ADN". b. Molecular simulation. ¿Cuál es la diferencia entre Docking y Dynamics? Proponga un ejemplo práctico para ambas herramientas. Ejemplo práctico con caso: Metralindole como un inhibidor importante de la quinasa-2 y la holoenzima CK2. (https://pubmed.ncbi.nlm.nih.gov/37075433/) Molecular Simulación de acoplamiento (Docking): Una técnica de simulación por computadora que se utiliza para modelar la interacción entre dos moléculas. Normalmente, la simulación de acoplamiento mide las interacciones de una molécula pequeña o ligando con una parte de una molécula más grande, como una proteína. Ejemplo: Mostró como Metralindole tiene altas puntuaciones de acoplamiento en quinasas de división (5.159 Kcal / mol y - 5.99 Kcal / mol) con un buen enlace de hidrogeno. Además, en diseño de fármacos también es importante, se busca predecir la orientación del enlace de una molécula pequeña con la proteína que será donde ejercerán su acción, con lo que se podrá predecir la afinidad y la actividad de la molécula pequeña. Molecular Simulación dinámica (Dynamics): Una simulación por computadora desarrollada para estudiar el movimiento de las moléculas durante un período de tiempo. Ejemplo: Se hizo la simulación de la inhibición de quinasas con Metralindole para 100ns en un medio acuoso y confirmó la estabilidad del compuesto y el patrón de interacción con la menor desviación y fluctuación. Su campo de aplicación va desde superficies catalíticas hasta sistemas biológicos como las proteínas.

b. ¿A qué cree usted se debe la diferencia en el número de artículos entre ambas bases de datos? Porque PubMed no tiene citas para ciertos tipos de material de PMC, como reseñas de libros, que se consideran fuera del alcance de PubMed. c. Identifique en PMC los links para descargar el archivo y la citación (Pantallazo).

  1. Regrese a la ventana de PubMed con los resultados de la búsqueda anterior (“human brain cáncer”). Observe el panel izquierdo, el histograma de publicaciones por año. Poniendo el “mouse” sobre el histograma responda: a. ¿Como ha sido el comportamiento en las publicaciones que se relacionan con cáncer de cerebro? Ha ido en incremento, incremento más a partir del año 2005.

b. ¿Cuál es el año de mayor producción de artículos al respecto? En el año 2021 hubo mayor producción de artículos respecto al cáncer de cerebro humano. c. ¿Cuántos artículos se publicaron en el 2021? Se publicaron 11.425 artículos en el año 2021

  1. Para comparar el comportamiento de las publicaciones de varios temas, haga las búsquedas respectivas (ej. cáncer de cerebro versus de hígado) y descargue la información del histograma en formato de Excel separado por comas, dando click en “Download CSV”. Una vez abra selecciónelo y cópielo a una hoja de Excel. Ahora en Excel, en la opción Datos, texto en columna, separe las columnas por comas. Una vez tenga las columnas de años, publicaciones de cáncer de cerebro y cáncer de hígado, haga un histograma comparativo (Ver ejemplo). Haga este ejercicio comparando al menos dos temas de su interés (Pantallazo).
    • De vuelta en PubMed, en los resultados de la búsqueda de “human brain cáncer”, observe en la parte izquierda los filtros de búsqueda disponibles (ver imagen). Seleccionando algunos de estos filtros responda: (Nota: no olvide dar “clear” en después de cada filtro para hacer una nueva búsqueda) a. Señale cuales tipos de filtros están disponibles para esta búsqueda, incluyendo los filtros adicionales a los mostrados en la pantalla (Pantallazo). Amplié la selección de con la opción “Additional filters”. 14 filtros normalmente

Con “Additional filters”: b. ¿Cuántas revisiones relacionadas al cáncer de cerebro hay? Hay 31,656 revisiones relacionadas al cáncer de cerebro. c. ¿Cuántos reportes de ensayos clínicos? Hay 7,348 reportes de ensayos clínicos. d. ¿Cuántos reportes en congresos?

PARTE 2 – Entrez (All Databases) (https://www.ncbi.nlm.nih.gov/) Bases de datos de información biológica (Nota: se recomienda abrir cada uno de los siguientes repositorios en pestañas independientes: click derecho, abrir en nueva pestaña)

  1. ¿Si en All Databases se busca información de la proteína Spike (spike protein), cuantos repositorios con información de esta proteína se encuentra? Describa brevemente el contenido de al menos 3 de los repositorios. (Pantallazo). ¿Por qué en el repositorio de genomas “Genome” no hay información? Tiene 35 repositorios, con resultados en 30 bases de datos. (1). PubMed: Uno de los repositorios es PubMed donde se encuentran 32. resultados, en el cual se observa que a partir del 2020 se incrementaron mucho los estudios sobre esta glicoproteína, los primeros resultados que se pueden observar son sobre vacunas de SARS-CoV2 y la dinámica de la proteína.

(2). Taxonomy: solo se encuentra un resultado sobre el nombre actual: TGEV spike y se puede encontrar el ID de taxonomía. (3). BioProject: se encuentran distintos tipos de proyectos con datos como transcriptoma o expresión génica en homo sapiens, además, de purificación de RBD SARS-CoV2.

En “Assembly” proporciona información sobre la estructura de los genomas ensamblados, lo primero que aparece es la descarga de ensamblajes y un recuadro con la taxonomía y su ID. Después aparecen resultados de ensamblajes con su fecha, nivel de ensamblaje, si la representación genómica está completa, etc. De forma resumida, la diferencia radica en que Genome ofrece la secuenciación y anotación del genoma de SARS-CoV2 y Aseembly ofrece el ensamblaje del genoma. En la barra de repositorios (como vimos en el numeral 3) ahora exploremos otros recursos:

  1. Recurso: Taxonomy, busquemos información sobre Formicidae, damos click y ahora buscamos una especie en particular (ej. Heteroponera panamensis). ¿Cuál es su ID? ¿su nombre común? ¿Código genético? ¿cuántas secuencias de ADN y proteínas hay disponibles? ID: 36 9144 Nombre común: Hormigas Código genético: Tabla de traducción 1 (estándar)Código genético mitocondrial: Tabla de traducción 5 (Invertebrado mitocondrial) Hay 13 secuencias de ADN y 9 secuencias de proteínas. a. Vaya al link de nucleótidos (clic en el número de secuencias) e identifique los tipos de secuencias disponibles (Pantallazo). Se encuentran disponibles las secuencias de ADN lineal de genes que codifican proteínas (como la cytochrome oxidase), genes del factor de elongación, o genes de ARN ribosómico 28S y 18S.

b. ¿Cuál es el rango del tamaño de las secuencias nucleotídicas disponibles para estas hormigas? Secuencias de 359 pb hasta 1851 pb. c. Repita el paso anterior (a) pero ahora en proteínas (Pantallazo). Se encuentran disponibles secuencias de proteínas. Por ejemplo, el citocromo oxidasa, del factor de elongación, sin alas o rodopsina, etc.

  1. Busquemos información sobre la Histona H1 en Culex pipiens. a. ¿Cuántos registros obtuvo? Identifique cuantas secuencias nucleotídicas hay, cuantos mRNA y cuantas secuencias de genomas (RefSeq). Hay 39 registros. Hay 28 secuencias de DNA (1 circular), 10 secuencias de mRNA y 1 6 secuencias de genomas (RefSeq). b. El formato FlatFile es el formato de visualización de las características de las secuencias en el repositorio. Busque la secuencia Código GenBank en Nucleotide (XM_001865135.2) e identifique el tamaño de secuencia, el nombre del locus en el genoma, los autores, la secuencia nucleotídica y aminoacídica en la parte inferior (Pantallazo). Tamaño: 774 bp mRNA. Nombre del locus: LOC6048217 (posición 57…707). No se registraron autores.

c. Ahora veamos la gráfica del mapeo de este gen en el genoma. Ir a Graphics (flecha). Dando click en Gene ID, identifique en que posiciones del scaffold está, ¿Qué dominios tiene esta proteína? ¿los identifica en la gráfica? (Pantallazo). Posición: 57…

d. Vamos a descargar la secuencia de este gen. Regrese a la vista de la secuencia (imagen anterior) e identifique el formato fasta (texto plano). Descargue esta secuencia en Send (flecha) en formato fasta.

PARTE 4 – Base de datos Protein (https://www.ncbi.nlm.nih.gov/protein/?term=) Búsqueda y descarga de secuencias de aminoácidos

  1. En el recurso Protein del repositorio NCBI: a. En el buscador ingresa el nombre de una proteína “Tubulin-Tyrosine ligase AND Leishmania major”. ¿Cuántos registros obtuviste de la Tubulin-Tyrosine? Observe algunos registros que indican “Putative”, ¿a qué se refiere esto? ¿Qué rangos de tamaño tienen las secuencias aminoacídicas? Se obtienen 38 registros, se está calificando como algo que no es. Rango de 229 aa hasta 980 aa. b. Ingresa a la secuencia con código de acceso (CAB55367.1), visualiza el gráfico y descarga la secuencia peptídica en formato fasta (similar a lo realizado anteriormente con la secuencia nucleotídica) (Pantallazo).