Análisis estadístico de secuencias biológicas

Feb 06, 2023

Secuencias biológicas y como representarlas.

Las secuencias biológicas son probablemente la principal fuente de información en sistemas biológicos. En términos simples, las secuencias biológicas son una serie de elementos ordenados, y el tipo de elementos determina el tipo de secuencia biológica. Hay al menos tres tipos de secuencias biológicas, DNA, RNA y proteínas, y estos se encuentran relacionadas entre sí. El DNA es transcrito a RNA y el RNA se traduce a proteína. De manera general, el DNA/RNA pueden ser vistos como los planos de los componentes de un sistema biológico. Mientras que las proteínas son los elementos que hacen que funcione dicho sistema.

En lo que se refiere al tipo de componentes, el DNA/RNA comparten más características en comparación con las proteínas. El DNA está compuesto por deoxinucleótidos, mientras que el RNA se construye a partir de ribonucleótidos. Ambos componentes se forman de una base nitrogenada y una azúcar. RNA y DNA tienen azúcares distintos y comparten tres bases nitrogenadas. Mientras que las proteínas se construyen a partir de aminoácidos.

Las secuencias de DNA/RNA son de mayor tamaño en comparación con las secuencias de proteínas y solo contienen cuatro elementos únicos. Mientras que las proteínas son generalmente de menor tamaño, pero contienen 21 elementos únicos. Una de las principales razones de esta diferencia se debe a que el DNA/RNA codifica a los aminoácidos mediante la combinación de elementos. Al usar las combinaciones se reduce el número de elementos únicos, pero se incrementa el tamaño de la secuencia.

Una de las formas más comunes de representar secuencias biológicas es mediante la de una serie continua de texto. Donde cada carácter en la secuencia representa un elemento y el orden es igual al de la secuencia en el sistema biológico. Esta representación preserva el orden de los elementos, pero puede ser de gran tamaño y dificultar el análisis. Una alternativa de menor tamaño es mediante el uso de la frecuencia de cada uno de los elementos dentro de la secuencia. En este caso se pierde el orden de los elementos, pero se obtiene una representación de muy poco tamaño. Esta representación también tiene un significado químico, ya que representa la cantidad de elementos necesarios para obtener la secuencia.

Secuencias virales y series de tiempo.

Tener una representación de fácil manejo permite el análisis de un gran número de secuencias biológicas. Particularmente con el incremento de la vigilancia genómica, un gran número de secuencias del SARS-Cov2 se encuentran disponibles para su análisis. Podemos utilizar la representación antes descrita y la fecha de aislamiento para construir una serie de tiempo. Esta serie nos permitirá evaluar si hay algún cambio en los componentes de la secuencia a lo largo del tiempo. Sin embargo, pequeñas variaciones podrían añadir variabilidad no deseada o que dificulten observar algún tipo de patrón. Para reducir el posible ruido se puede emplear una venta deslizante.

Una ventana deslizante consiste en tomar un fragmento en la serie de datos y calcular un valor estadístico en particular. Después, se toma un nuevo fragmento al deslizarse una sola unidad de tiempo en la serie. Esto se repite a lo largo de toda la serie obteniendo otra serie de tiempo. Aplicando este análisis usando la frecuencia promedio y la desviación estándar promedio como valores estadísticos se obtiene una serie con oscilaciones a lo largo del tiempo.

Estas oscilaciones podrían representar puntos en el tiempo donde la secuencia es más propensa a mutar o aumentar la inefectividad del virus. Esta serie de tiempo puede descomponerse en dos componentes. Un componente de tendencia y un componente oscilatorio. El componente de tendencia nos podría permitir la predicción a largo plazo. En este caso se muestra un aumento o decremento en ribonucleótidos específicos. Esta característica es muy importante, ya que señala la dependencia del virus a un componente determinado. Además, una de las estrategias para el tratamiento de enfermedades virales es el uso de análogos de nucleótidos. Estos análogos inhiben la duplicación del material genético del virus. Restringiendo la diseminación en el hospedero y facilitando su eliminación por el sistema inmune.

Mientras que el componente oscilatorio podría facilitar la predicción de futuras olas de COVID-19. Por otro lado, podría mostrar puntos donde la aparición de variantes sea más probable. Para evaluar si hay alguna relación entre la aparición de variantes y los diferentes componentes de la serie de tiempo, se grafican al mismo tiempo el número de variantes únicas aisladas a lo largo del tiempo. Esto muestra sobreposición en puntos donde hay oscilaciones en el contenido de ribonucleótidos de la secuencia.

Escalas de tiempo mezcladas

Cambiando la escala temporal en la que se construye la secuencia, es decir, ahora se agrupan las secuencias por día del año. Se obtiene también un sobrelape, sin embargo, este sobrelape parece tener una mayor concordancia con la desviación estándar, una medida de dispersión. Lo cual tiene sentido más variantes del virus resulta en más variaciones en el contenido de cada uno de los ribonucleótidos.

Sin embargo, para poder correlacionar la aparición de variantes y el contenido de ribonucleótidos es necesario la sincronización del componente oscilatorio. Es decir, debe de haber algún a forma de ordenar las secuencias la cual permita se encuentren en el mismo punto del componente oscilatorio. En la actualidad la temporalidad de las olas de COVID-19 se desconoce. Sin embargo, un creciente número de evidencias señala dos factores en particular, la latitud y la radiación solar. Una forma sencilla de combinar ambos aspectos es mediante el uso de la duración del día o el flux solar como una medida temporal en lugar del calendario estándar.

La duración del día se refiere a la cantidad de tiempo con luz solar durante el día, mientras que el flux solar se refiere a la cantidad de radiación solar que incide en un sitio a lo largo del día. Ambos valores dependen de la latitud y pueden ser calculados utilizando una simple fórmula. El empleo del flux solar resulta en algo difícil de interpretar. Mientras que la duración del día muestra un perfil bastante similar al compararse con el número de variantes aisladas.

La similitud entre una medida estadística de dispersión y la aparición de nuevas variantes tiene sentido. Ya que al aislarse más variantes, el contenido de los ribonucleótidos debería de ser más disperso. Sin embargo, no es un perfil exacto, por lo que es probable que otro tipo de medidas de dispersión podrían dar una mejor aproximación. Otra medida estadística de dispersión es la entropía, la cual mide la cantidad de información que posee una variable. El uso de la entropía muestra una aproximación casi perfecta entre el número de variantes. Además, esta similitud es independiente al tipo de ribonucleótido. Esto sugiere que el número de variantes es una medida indirecta de la entropía que contiene la secuencia del SARS-Cov2. Además, que una escala temporal correcta debería de tener una alta correlación entre la entropía y el número de variantes. Por lo que aunque la duración del día ofrece una escala temporal que explica el patrón cíclico anual del virus, no es una escala exacta.

Muestreo deslizante de la secuencia.

Hasta el momento, la frecuencia de los ribonucleótidos dentro de la secuencia del SARS-Cov2 ha sido utilizada para representarla. Aunque una parte de la información se pierde durante este tratamiento, las diferentes técnicas de análisis propuestas muestran que es posible obtener información de utilidad. Sin embargo, podemos extender el análisis al emplear la misma técnica que fue usada en el caso de las series de tiempo. Es decir, la secuencia del SARS-Cov2 se puede fragmentar de forma deslizante y tomar un número fijo de elementos.

En este caso la secuencia es fragmentada obteniendo una serie de fragmentos del mismo tamaño. Posteriormente, la frecuencia de cada uno de los fragmentos es calculada y se analiza empleando las técnicas explicadas antes. Sin embargo, de este tratamiento resulta un número creciente de fragmentos únicos. Es decir, al tomar solo un ribonucleótido, se obtenían solo cuatro elementos únicos, mientras que tomando fragmentos de dos elementos resulta en 16 elementos únicos y el número continúa creciendo. Este número creciente de fragmentos complica el análisis, pero podría ser capaz de encontrar cambios en fragmentos que pudieran ser regiones reguladoras dentro del virus.

Por ejemplo, tomado como ejemplo a algunos fragmentos de dos ribonucleótidos, se puede observar que se obtiene tanto los elementos de pendiente y oscilatorio. Y parece que la linearización del elemento de tendencia es mejor. Sin embargo, al ir aumentando el tamaño del fragmento, el número de combinaciones dificulta el poder observar un patrón determinado.

Mientras que al usar fragmentos de cuatro ribonucleótidos se obtienen 256 fragmentos únicos y también pueden ser descompuestos en los elementos de tendencia y oscilatorio. Sin embargo, debido al gran número de fragmentos, es difícil determinar si el cambio en un fragmento determinado se relaciona con una variante en especial, o con solo un punto más propenso a mutaciones. Por lo que es necesario el desarrollo de un método que pueda clasificar u ordenar a las diferentes por el tipo y cantidad de fragmentos que posean. En los siguientes posts mostraré técnicas más avanzadas de análisis para la clasificación de secuencias mediante el uso de la frecuencia de fragmentos pequeños. Así como otras aplicaciones de este tipo de representación sencilla de secuencias.

Algunas notas extras.

Aunque usar la duración del día parece no tener algún tipo de relación con el COVID-19, su empleo no fue aleatorio. Solo este valor provee una forma sencilla de codificar la latitud a lo largo de grandes distancias, una variable geográfica ya antes asociada al covid-19. Además, provee un valor del tiempo máximo de exposición a la radiación solar, la cual tiene una gran relación con el COVID-19. Por un lado, deficiencias de vitamina D, sintetizada por la radiación UV, está asociada con un mayor riesgo de complicación de COVID-19. Mientras que el tratamiento con radiación infrarroja mejora la recuperación en pacientes de COVID-19 que no fueron hospitalizados. Además de ser capaz de inactivar los efectos tóxicos de la proteína spike. Aunque un mecanismo exacto no se conoce, se puede observar que la radiación solar posee un papel muy importante en lo que se refiere al COVI-19.

Vitamina D

Autumn COVID‑19 surge dates in Europe correlated to latitudes, not to temperature‑humidity, pointing to vitamin D as contributing factor.

Radiación COVID-19

Cardiopulmonary and hematological effects of infrared LED photobiomodulation in the treatment of SARS-COV2

Radiación Spike

Infrared light therapy relieves TLR-4 dependent hyper-inflammation of the type induced by COVID-19

El plan

El objetivo de este blog es el de conseguir fondos para mejorar y perfeccionar los métodos de análisis expuestos en “Aplications of sliding sampling to biologiocal sequences”, además de una serie de post en medium y otros análisis diversos. Puedes encontrar un índice del código y modelos propuestos en el siguiente enlace.

El desarrollo de esta metodología puede ofrecer una caracterización rápida de patógenos emergentes y otras enfermedades. Durante el desarrollo del proyecto, todos los recursos, desde código, conjuntos de datos, y ejemplos de como usar, se publicarían de modo periódico y libre.

El apoyar proyectos científicos fuera de la academia es una actividad cada vez más común, algo que se denomina ciencia ciudadana. Sin embargo, el obtener fondos para estos proyectos continúa siendo un factor limitante. El apoyar este tipo de proyectos traería a la luz nuevas ideas o ideas previamente ignoradas.

Evite las grandes aglomeraciones cerca de los puntos estacionarios de radiación solar, medio día y verano o invierno. Mejore el tiempo de exposición a la radiación solar que tiene diariamente. Y nos vemos en el siguiente.

Octavio’s Substack