Analizar la expresión génica de una persona requiere mapear su paisaje de ARN a una referencia estándar para obtener información sobre el grado en que los genes se « activan » y realizan funciones en el cuerpo. Pero los investigadores pueden tener problemas cuando la referencia no proporciona suficiente información para permitir un mapeo preciso, un problema conocido como sesgo de referencia.

En un nuevo artículo publicado en la revista Nature Methods, investigadores de la UC Santa Cruz presentan el primer método para analizar datos de secuenciación de ARN en todo el genoma utilizando un « pantranscriptoma », que combina un transcriptoma y un pangenoma, una referencia que contiene información genética. material de una cohorte de individuos diversos, en lugar de una sola hebra lineal. Un grupo de científicos dirigido por el profesor asociado de ingeniería biomolecular de la UCSC, Benedict Paten, ha lanzado un conjunto de herramientas que permite a los investigadores mapear los datos de ARN de un individuo en una referencia mucho más rica, abordando el sesgo de referencia y conduciendo a un mapeo mucho más preciso.

« Esto es pangenoma más transcriptoma, esa combinación nunca se había hecho antes hasta ahora », dijo Jordan Eizenga, coautor del artículo y académico postdoctoral en el Laboratorio de Genómica Computacional de la UCSC. « Esta es la primera vez que alguien intenta incorporar el pangenoma como una característica estándar del mapeo de secuenciación de ARN ».

Esta herramienta ayudará a los investigadores de todo el mundo que trabajan para comprender la expresión génica a través del análisis de secuenciación de ARN. Las herramientas están disponibles públicamente y se puede acceder a ellas a través de Github.

« Con este conjunto de herramientas, estamos empleando estos datos más diversos que ahora podemos obtener del pangenoma para mejorar la medición de los datos de expresión génica, algo que puede variar ampliamente entre los individuos », dijo Paten. « El objetivo es hacer que el impacto de estos datos más diversos se sienta en los estudios que analizan la expresión génica, lo que resulta en un mejor análisis para modelos celulares, modelos organoides y otras aplicaciones de investigación ».

La función más comúnmente reconocida del ARN es traducir el ADN en proteínas, pero los científicos ahora entienden que la gran mayoría del ARN no codifica y no produce proteínas, sino que puede desempeñar funciones como influir en la estructura celular o regular los genes. Todo el panorama del ARN se conoce colectivamente como el transcriptoma, y ​​mapear esto permite a los investigadores comprender mejor la expresión génica de un individuo.

El pantranscriptoma se basa en el concepto emergente de « pangenómica » en el campo de la genómica. Por lo general, al evaluar la variación de los datos genómicos de un individuo, los científicos comparan el genoma del individuo con el de una referencia formada por una sola hebra lineal de bases de ADN. El uso de un pangenoma permite a los investigadores comparar el genoma de un individuo con el de una cohorte genéticamente diversa de secuencias de referencia a la vez, provenientes de individuos que representan una diversidad de ascendencia biogeográfica. Esto les da a los científicos más puntos de comparación para comprender mejor la variación genómica de un individuo.

El mapeo de datos de secuenciación de ARN para comprender la expresión génica puede ser difícil porque las secuencias de ARN se empalman mediante mecanismos celulares, lo que significa que un conjunto de datos de ARN puede provenir de áreas no conectadas del genoma, lo que dificulta alinearlos correctamente con una referencia. Estos sitios de empalme no son uniformes en la población humana, sino que varían entre individuos. También es difícil saber de qué haplotipo proviene el ARN, si el grupo de genes proviene específicamente del conjunto de cromosomas heredado de la madre del individuo o del conjunto heredado del padre.

Pero con la nueva tubería de herramientas de código abierto, los investigadores pueden tomar los segmentos empalmados del ARN de un individuo, mapear dónde se alinean en un pangenoma, identificar a qué haplotipo pertenecen los datos y analizar la expresión génica.

Primero, la tubería identifica de qué áreas del genoma provienen los datos de secuenciación de ARN, incluidos los sitios de empalme, y marca esos puntos en la referencia del pangenoma. A continuación, esos puntos marcados se comparan con un pantranscriptoma que consta de transcritos específicos de haplotipos generados a partir de los datos de referencia contenidos en el pangenoma. Este paso requiere métodos algorítmicos desafiantes y especializados.

Finalmente, genera estimaciones de los niveles de expresión génica en función de esta comparación entre los datos mapeados y las transcripciones en el pantranscriptoma, e identifica de qué haplotipos provienen los genes.

« Definitivamente es un estudio con mucha visión de futuro en el sentido de que otros métodos de expresión de todo el genoma aún no están utilizando pangenomas ni información de haplotipos », dijo Jonas Sibbesen, coautor del estudio y ex becario postdoctoral en el Laboratorio de Genómica Computacional de la UCSC. quien ahora es profesor asistente en la Universidad de Copenhague. « Ahora estamos pensando en lo que la pangenómica podría traer adicionalmente a la mesa en los análisis transcriptómicos ».

En el futuro, los investigadores están interesados ​​en seguir desarrollando estas herramientas para que sean útiles para el análisis informático posterior y adaptar las herramientas a las particularidades de la investigación sobre datos unicelulares. Por ahora, el grupo espera que su nuevo conjunto de herramientas sirva para mostrar cuán útil puede ser el uso de análisis derivados de la pangenómica.

« Necesitamos poder explicarles a algunos investigadores cómo los beneficiará una referencia de pangenoma », dijo Paten. « Esta tubería es realmente un primer intento de hacer esto para el ARN, para datos funcionales, para datos de expresión ».