• Escrito por  Jhon Henry Trujillo, Jhon Jaime Riascos
  • Publicado en Informe
  • Email

Cenicaña avanza en la construcción del genoma de la caña de azúcar

El genoma es similar a una biblioteca en donde se almacena toda la información genética de un organismo.

La información, en lugar de ser almacenada en libros, se almacena en cromosomas, los cuales están escritos con cuatro bases químicas (adenina, guanina, timina y citosina) que conforman el ADN.

Estas bases determinan las instrucciones que hay dentro del ADN y, de forma similar a como se combinan las letras del alfabeto para construir palabras, se pueden combinar para formar genes. Los genes llevan la información que determina nuestros rasgos, es decir, aspectos o características de cómo somos y que fueron transmitidas por nuestros padres.

Definir un catálogo de los genes presentes en el genoma ayuda a entender la biología del organismo. De esta manera es posible conocer su proceso de evolución, su relación con otras especies y su resistencia o susceptibilidad a diferentes tipos de enfermedades, plagas o condiciones abióticas. Además, el genoma es un marco de referencia para entender qué tan variables son los genes entre los organismos de una misma especie o de especies diferentes.

La variabilidad genética entre individuos de un grupo o una población se observa por cambios en alguna de las bases químicas o en un conjunto de ellas. Esas variantes se conocen con el nombre de marcadores moleculares y tienen aplicaciones en el mejoramiento genético.

Por ejemplo, en el caso de los cultivos, un conjunto de marcadores moleculares identificados en una población puede usarse para encontrar correlaciones con características de interés agronómico. Debido a que el genoma de un organismo no cambia significativamente durante su ciclo de vida, los marcadores moleculares se vuelven predictores de la presencia o ausencia de las características de interés, sin tener que esperar a que el cultivo complete su ciclo de vida. Esta y otras aplicaciones hacen que la información presente en el genoma sea valiosa en los procesos de mejoramiento vegetal.

El juego del rompecabezas

El ensamblaje de un genoma puede ser visto como un juego de rompecabezas, donde las fichas corresponden a secuencias de compuestos orgánicos (nucleótidos) y el rompecabezas armado, al genoma. Son millones de fichas (secuencias) que deben ser ensambladas correctamente para obtener la referencia original.

Para ensamblar un genoma es necesario extraer una cantidad suficiente de ADN de la planta, el cual es sometido a un proceso llamado secuenciación. Este proceso consiste en determinar el orden de cada nucleótido sobre el genoma, fragmentando el ADN en millones de secuencias (fichas) y sin conocer la posición de ninguna de ellas. Debido a la gran cantidad de información que se requiere para armar un rompecabezas de estas dimensiones, es necesario utilizar algoritmos computacionales que permitan acoplar el orden de las secuencias hasta armar nuevamente el genoma. No obstante, dicho procedimiento no garantiza la reconstrucción total del genoma debido a que algunas fichas pueden quedar incompletas, bien por errores de secuenciación o porque, dada la complejidad del genoma, se encuentran muchas fichas casi idénticas, principalmente en las regiones que se repiten en el genoma.

El procedimiento ha sido utilizado con éxito en la reconstrucción del genoma humano y de especies vegetales como la crucífera Arabidopsis thaliana, el arroz, la soya, el maíz, el frijol y la yuca. La información presente en el genoma humano contribuye a entender diferentes tipos de enfermedades y las mutaciones ligadas a ellas, entre miles de aplicaciones. En el caso de los cultivos, es utilizada en los programas de mejoramiento vegetal para apoyar los procesos de selección de nuevas variedades.

En qué vamos en Cenicaña

En el Centro de Investigación hemos avanzado en la construcción del genoma de la caña de azúcar con base en el ADN extraído de la variedad CC 01-1940.

La variedad CC 01-1940 es un híbrido obtenido por Cenicaña a partir del cruzamiento entre CCSP 89-1997 (madre) y CC 91-1583 (padre); fue seleccionada en ambientes húmedos.

A. Para generar la primera versión del genoma de CC 01-1940 se utilizaron 100.5 Gbp (1 Gbp = 1,000,000,000 bp) obtenidos mediante lecturas de PacBio, una tecnología de secuenciación de nueva generación o NGS (sigla en inglés de Next Generation Sequenncing). Las secuencias se caracterizaron por tener una longitud promedio de 12 Kbp (1 Kbp = 1000 bp).

B. El proceso de ensamblaje se llevó a cabo en tres etapas, utilizando la tecnología de bioinformática Canu Assembler. En la primera etapa se eliminaron los errores de secuenciación en cada una de las lecturas PacBio. En la segunda etapa se descartaron otras secuencias de nucleótidos que, luego de la primera corrección, continuaban presentando poca calidad.

C y D. En la tercera etapa, con las lecturas definitivas, se elaboró un grafo de ensamblaje y se generaron los contigs. El grafo de ensamblaje proporciona una representación matemática del modo en que se alinean las secuencias de nucleótidos por sus regiones en común, mientras que los contigs corresponden al ensamblaje generado a partir de estos alineamientos.

En la evaluación del ensamblaje se tuvo en cuenta las siguientes metricas de ensamblaje: el número de contigs generados, la mediana del tamaño de los contigs o N50, el tamaño total ensamblado y la tasa de error. Los valores obtenidos ayudan a verificar la calidad del ensamblaje en relación con la continuidad de los contigs. En general, se puede decir que un número bajo de contigs favorece la continuidad del ensamblaje, y que un tamaño grande de contigs favorece un número bajo de ellos.

De acuerdo con estas métricas, en esta primera versión del genoma de la variedad CC 01-1940 se generaron 75,684 contigs con un tamaño de mediana o N50 igual a 22,455 bp, para un tamaño total del ensamblaje de 1224 Mbp y una tasa de error de 3.5%.

Estos resultados indican que los contigs generados son de alta calidad, aunque el tamaño de la mediana señala que es necesario mejorar su continuidad.

El tamaño total del ensamblaje muestra que se logró reconstruir una referencia cercana al genoma monoploide de la caña de azúcar, es decir que se consiguió una representación básica del genoma completo de la caña de azúcar.

Mediante análisis de citometría de flujo se determinó el tamaño del genoma de la variedad CC 01-1940 en aproximadamente 1019 Gbp.

Con el ensamblaje se busca “armar el rompecabezas” de forma tal que su tamaño final sea lo más próximo al tamaño real del genoma.

Con este objetivo Cenicaña trabaja en la segunda versión del genoma de la caña de azúcar a partir de la secuenciación de un nuevo tipo de librerías conocidas como Hi-C, tecnología Illumina de NGS, que brindan información acerca de la proximidad de las secuencias de ADN y, en consecuencia, ayudan a mejorar el tamaño de contigs para convertirlos en secuencias más grandes o scaffolds (andamios). Además, para reconstruir un genoma a nivel de cromosomas a menudo se requiere la construcción de mapas genéticos para guiar el ensamblaje con una mayor precisión, especialmente en especies complejas como la caña de azúcar.

El genoma de la caña de azúcar, variedad CC 01-1940, en su segunda versión, será utilizado en Cenicaña como genoma de referencia para la identificación de marcadores moleculares con potencial en el programa de mejoramiento genético del Centro de Investigación. 

ALGUNOS CONCEPTOS

Citometría de flujo: técnica de análisis de células individuales que utiliza luz láser y dispositivos de detección para inferir el número de células de una muestra, su tamaño, forma y otras características.

Contig: lectura de ADN en la forma de secuencias de nucleótidos que se alinean entre sí por sus regiones en común y que juntas representan una región consenso del genoma.

Genoma monoploide: corresponde a la representación básica de un genoma completo que está conformado por un número mínimo de cromosomas.

Grafo de ensamblaje: es la representación matemática y computacional de los alineamientos de los fragmentos o lecturas de secuenciación.

HI-C: metodología que permite secuenciar regiones adyacentes de ADN dentro y entre cromosomas, para mejorar la continuidad de un ensamblaje. Lectura de secuenciación: corresponde a una sección de un fragmento de ADN que contiene una secuencia de nucleótidos.

NGS: sigla de Next Generation Sequencing o tecnologías de secuenciación de nueva generación.

Nucleótidos: son moléculas orgánicas formadas por la unión  covalente de un monosacárido  de cinco carbonos, una base nitrogenada y un grupo fosfato. 

Pares de bases o bp: unidad referida a los pares de nucleótidos unidos entre sí por enlaces de hidrógeno, representada por bp (base pair). Un contig con 100 bp está conformado por 100 pares de nucleótidos; 1 kbp (kilo base pairs) = 1000 bp; 1 Mbp (mega base pairs) = 1,000,000 bp.

Scaffolds: región o fragmento de ADN formado por el solape de los contigs.

Autores:

JHON HENRY TRUJILLO. Ingeniero de sistemas y computación, vinculado a Cenicaña como estudiante de doctorado en Bioinformática (Ingeniería con énfasis en Ciencias de la Computación, Universidad del Valle)
JHON JAIME RIASCOS. Biólogo, biotecnólogo, Ph.D. - Cenicaña.

Carta Informativa 
Año 6 / Número 1 /Julio de 2018

Texto completo en versión: 
PDF Animada