¿Cuál es la naturaleza del tiempo?

Sin lugar a duda, el concepto de tiempo es posiblemente uno de los mayores misterios de la naturaleza. La naturaleza del tiempo ha sido siempre un tema de debate tanto desde el punto de vista de la filosofía como de la física. Pero esto ha tomado una especial relevancia como consecuencia del desarrollo de la teoría de la relatividad, la cual ha marcado un punto de inflexión en la percepción del espacio-tiempo.

A lo largo de la historia se han planteado diferentes teorías filosóficas sobre la naturaleza del tiempo [1], aunque ha sido a partir del siglo XX cuando se ha producido mayor desarrollo, sobre todo debido a los avances de la física. Así, hay que destacar el argumento en contra de la realidad del tiempo planteado por McTaggart [2], de tal forma que el tiempo no existe y que la percepción de un orden temporal es simplemente una apariencia, el cual ha tenido una gran influencia en el pensamiento filosófico.

No obstante, el argumento de McTaggart se basa en la ordenación de eventos, tal como los percibimos. A partir de esta idea, se han desarrollado varias teorías filosóficas, como la Teoría-A, la teoría-B, la teoría-C y la teoría D [3]. Sin embargo, este desarrollo filosófico se basa en razonamientos abstractos, sin apoyarse en los conocimientos proporcionados por los modelos físicos, lo que plantea cuestiones de naturaleza ontológica. 

Así, tanto la teoría de la relatividad como la teoría cuántica muestran que la realidad emergente es una realidad observable, lo que significa que en el caso del espacio-tiempo tanto las coordenadas espaciales como la temporal son parámetros observables, que emergen de una realidad subyacente. En el caso del tiempo esto plantea la pregunta: ¿El hecho de que algo sea pasado, presente o futuro implica que sea algo real? En consecuencia: ¿Como la realidad mostrada por la física conecta con las tesis filosóficas?

Si nos centramos en un análisis basado en los conocimientos físicos, hay dos aspectos fundamentales en la concepción del tiempo. El primero y más evidente es la percepción del transcurso del tiempo, sobre la que se fundamenta la idea de pasado, presente y futuro, que Arthur Eddington definió como flecha del tiempo [4], que pone de manifiesto su irreversibilidad. El segundo aspecto es lo que Carlo Rovelli [5] define como “loss of unity” y que hace referencia a la relatividad espacio-tiempo, que hace que el concepto de pasado, presente y futuro sea un concepto arbitrario, basado en la percepción de los eventos físicos.

Pero, además de utilizar criterios físicos en el análisis de la naturaleza del tiempo, parece necesario su análisis desde el punto de vista de la teoría de la información [6], lo que permite un enfoque abstracto que permita superar las limitaciones derivadas de los secretos encerrados en la realidad subyacente. Esto es posible ya que cualquier elemento de realidad debe tener una representación abstracta, o sea por una información, de lo contrario no podrá ser percibida por ningún medio, ya sea órgano sensorial o dispositivo de medida, por lo que no será un elemento de realidad.

La topología del tiempo

Desde el punto de vista newtoniano, la dinámica de los sistemas clásicos se desarrolla en el contexto de espacio-tiempo de cuatro dimensiones, tres dimensiones espaciales (x,y,z) y una dimensión temporal (t), de tal forma que el estado del sistema se puede expresar en función de las coordenadas generalizadas q y de los momentos generalizados p como una función f(q,p,t), siendo q y p unas tuplas (listas ordenadas de coordenadas y momentos) que determinan el estado de cada uno de los elementos que componen el sistema.

Así, para un sistema de partículas puntuales, el estado de cada partícula está determinado por las coordenadas de su posición q = (x,y,z) y de su momento p = (mẋ, mẏ, mż). Esta representación es muy conveniente, ya que permite el análisis de los sistemas mediante el cálculo de funciones temporales continuas. Sin embargo, esto puede llevar a una interpretación equivoca ya que al identificar el tiempo como una variable matemática hace concebirla como una variable reversible. Esto se pone de manifiesto si la dinámica del sistema se representa como una secuencia de estados, que de acuerdo a la teoría cuántica tiene una naturaleza discreta [7] y que se puede expresar en términos de un sistema clásicos (CS) como:

            CS = {… Si-2(qi-2,pi-2), Si-1(qi-1,pi+-), Si(qi,pi), Si+1(qi+1,pi+1), Si+2(qi+2,pi+2),…}

De acuerdo a esta representación, definimos el pasado como la secuencia {… Si-2(qi-2,pi-2), Si-1(qi-1,pi+-)}, el futuro como la secuencia {Si+1(qi+1,pi+1), Si+2(qi+2,pi+2),…} y el presente como el estado Si(qi,pi). La pregunta que se plantea es: ¿Tienen existencia real las secuencias {… Si-3(qi-3,pi-3), Si-2(qi-2,pi-2), Si-1(qi-1,pi+-)} y {Si+1(qi+1,pi+1), Si+2(qi+2,pi+2), Si+3(qi+3,pi+3),…}? O por el contrario: ¿Son producto de la percepción de la realidad emergente?

En el caso de un sistema cuántico su estado está representado por su función de onda Ψ(q), la cual es una superposición de las funciones de onda que componen el sistema:

              Ψ(q,t) = Ψ(q1,t) ⊗ Ψ(q1,t) …⊗ Ψ(qi,t) …⊗ Ψ(qn,t)

De tal forma que la dinámica del sistema puede ser expresada como una secuencia discreta de estados:

            QS = {… Ψi-2(q i-2), Ψi-1(q i-1), Ψi(q i), Ψi+1(q i+1), Ψi+2(q i+2), …}

Al igual que en el caso del sistema clásico Ψi(q) representaría el estado presente, mientras que {… Ψi-2(q), Ψi-1(q)} representa el pasado y {Ψi+1(q), Ψi+2(q), …} el futuro, aunque como se analizará posteriormente esta interpretación es cuestionable.

No obstante, es fundamental destacar que las secuencias del sistema clásico CS y del sistema cuántico QS tienen, desde el punto de vista de la teoría de la información, una característica que hace que su naturaleza, y por tanto su interpretación, deba ser diferente. Así, los sistemas cuánticos tienen una naturaleza reversible, ya que su dinámica está determinada por transformaciones unitarias [8], por lo que todos los estados de la secuencia contienen la misma cantidad de información. Dicho de otra forma, su entropía se mantiene constante a lo largo de la secuencia:

            Hi(q i)) = Hi(q i+1)).

Por el contrario, los sistemas clásicos son irreversibles [9], por lo que la cantidad de información de los estados de la secuencia crece de forma sistemática, de tal forma que:

            H(Si(qi,pi)) < H(Si+1(qi+1,pi+1)).

En lo referente al incremento de la entropía de los sistemas clásicos, el post “Una interpretación del colapso de la función de onda” se ha tratado la naturaleza del crecimiento de la entropía a partir de la “Pauli’s Master Equation” [10]. Que demuestra que la realidad cuántica es una fuente de información emergente hacia la realidad clásica. No obstante, esta demostración tienen una naturaleza abstracta y no proporciona pistas de cómo esto ocurre físicamente, por lo que sigue siendo un misterio. Obviamente, el crecimiento de la entropía de los sistemas clásicos supone que debe existir una fuente de información y, tal como se ha justificado, esta fuente es la realidad cuántica.

Esto hace que los estados de la secuencia del sistema clásico sean distinguibles, estableciendo un orden direccional. Por el contrario, los estados del sistema cuántico no son distinguibles, ya que todos contienen la misma información ya que la teoría cuántica tiene una naturaleza reversible. Y aquí hay que hacer una puntualización crucial, ligada al proceso de observación de los estados cuánticos, que puede hacer pensar que esta interpretación no es correcta. Así, los estados clásicos  emergen como consecuencia de la interacción de los componentes cuánticos del sistema, lo que puede llevar a la conclusión de que los estados cuánticos son distinguibles, pero lo cierto es que los estados que son distinguibles son los estados clásicos emergentes.

De acuerdo a este razonamiento se puede extraer la siguiente conclusión lógica. El tiempo es una propiedad que emerge de la realidad cuántica como consecuencia de que los estados clásicos del sistema son distinguibles, estableciendo además lo que se ha denominado flecha del tiempo, de tal forma que la secuencia de estados tiene una característica distinguible como es la entropía del sistema.

Esto permite plantear además la hipótesis de que el tiempo sólo tiene existencia observable a nivel clásico, mientras que a nivel cuántico la dinámica del sistema no estaría sujeta al concepto de tiempo, por lo que estaría determinada por medio de otros mecanismos. En principio esto puede parecer contradictorio, ya que de acuerdo a la formulación de la mecánica cuántica la variable de tiempo aparece de forma explícita. En realidad esto no sería más que un artilugio matemático que permita expresar un modelo cuántico en la frontera que separa el sistema cuántico y el sistema clásico y así describir la realidad clásica a partir del modelo matemático cuántico. En este sentido se debe considerar que el modelo cuántico no es más que un modelo matemático de la realidad emergente que surge de una naturaleza subyacente, que de momento se desconoce y que trata de ser interpretada por nuevos modelos, tales como la teoría de cuerdas.

Un argumento que puede soportar esta idea lo encontramos también en la teoría de la gravitación cuántica de bucles (LQG) [11], que se define como una teoría de sustrato independiente, lo que significa que no está incrustada en una estructura espacio-temporal, y que plantea que el espacio y al tiempo emerja a distancias unas 10 veces la longitud de Planck [12].

La flecha del tiempo

Al analizar las secuencias de estados CS y QS hemos aludido al pasado, presente y futuro, que sería un concepto emergente determinado por la evolución de la entropía del sistema. Esto parece claro en la realidad clásica. Pero como se ha razonado, la secuencia de estados cuánticos es indistinguible, por lo que no sería posible establecer el concepto de pasado, presente y futuro.

Un aspecto fundamental que debe ser superado es la influencia de la visión Newtoniana de la interpretación del tiempo. Así, en la ecuación fundamental de la dinámica:

            F = m d2x/dt2

la variable tiempo está elevada al cuadrado, esto indica que la ecuación no distingue t de -t, es decir, es la misma hacia atrás o hacia adelante en el tiempo, por lo que la dinámica del sistema es reversible. Esto en su momento condujo al determinismo causal de Laplace y que siguió vigente hasta el desarrollo de la mecánica estadística y la de interpretación del concepto de entropía por Boltzmann. A esto hay que añadir que a lo largo del siglo XX el desarrollo científico ha conducido sin ningún tipo de duda a la conclusión de que la física no puede ser completamente determinista, tanto la física clásica como la física cuántica [13].

Por tanto, se puede decir que el desarrollo del cálculo y la utilización de la variable continua tiempo (t) en la determinación de los procesos dinámicos ha sido fundamental y muy fructífero para el desarrollo de la física. Sin embargo, hay que concluir que esto puede ser considerado un artilugio matemático que no refleja la verdadera naturaleza del tiempo. Así, cuando se representa una trayectoria sobre unos ejes coordenados, se crea la sensación de que el tiempo puede revertirse a discreción, lo cual estaría justificado por la reversibilidad de los procesos.

Sin embargo, los procesos clásicos están siempre sujetos a condicionantes termodinámicos, que hacen que estos procesos sean irreversibles, lo que significa que para un sistema aislado su estado evoluciona de tal forma que su entropía crece de forma sostenida, y por tanto la cantidad e información que describe el sistema, por lo que un estado futuro no puede revertirse a un estado pasado. En consecuencia, si se representa el estado del sistema en función del tiempo, podría pensarse que la variable tiempo podría ser revertida como si se moviera un cursor sobre el eje temporal, lo cual no parece tener realidad física, ya que el crecimiento de la entropía no es compatible con esta operación.

Para incidir aun más en la idea de la posibilidad de movernos en el tiempo como si fuera un eje o un cursor, se puede plantear la evolución de un sistema reversible, el cual puede alcanzar un cierto estado Si  y seguir evolucionando y a partir de un cierto momento poder volver a alcanzar de nuevo el estado Si. Pero esto no significa haber revertido el tiempo, sino que el tiempo evoluciona siempre en la dirección de la dinámica del sistema y lo único que ocurre es que el estado del sistema pude volver a un estado pasado de forma reversible. No obstante, en los sistemas clásicos esto no es más que una propuesta hipotética, ya que los sistemas reversibles son sistemas ideales libres de comportamiento termodinámico, tales como sistemas gravitatorios, electromagnéticos y sistemas mecánicos sin rozamiento. O sea, modelos ideales que no interaccionan con una realidad subyacente.

En definitiva, el estado de un sistema es una secuencia determinada por un índice que crece de forma sistemática. Por tanto, la idea de un eje de tiempo, aunque nos permite visualizar y tratar los sistemas de forma intuitiva, debe ser algo que debemos descartar, ya que nos lleva a una concepción errónea de la naturaleza del tiempo. Por tanto, el tiempo no es una variable libre, sino la percepción de una secuencia de estados.

Volviendo al concepto de pasado, presente y futuro, se puede asegurar que de acuerdo a la teoría de la información, el estado de presente está soportado por el estado Si(qi,pi), y por tanto es parte de la realidad clásica. En cuanto a que la secuencia de estados de pasado {… Si-3(qi-3,pi-3), Si-2(qi-2,pi-2), Si-1(qi-1,pi+-)} sea un realidad clásica requeriría que estos estados siguieran existiendo físicamente, algo totalmente imposible ya que requeriría un aumento de la información en el sistema que no está de acuerdo con el incremento de la su entropía, por lo que este concepto es también puramente perceptivo. Por otra parte, de ser esto posible el sistema sería reversible.

En el caso de la secuencia de estados futura {Si+1(qi+1,pi+1), Si+2(qi+2,pi+2),…} es una realidad clásica por ocurrir con un grado de incertidumbre que hace que no pueda ser predicha. Incluso en el supuesto de que esto fuera posible los estados del presente debería incrementar la cantidad de información para albergar las previsiones exactas del futuro, lo que incrementaría su entropía, lo que está en desacuerdo con la realidad observable. Por tanto, el concepto de futuro no es una realidad clásica, siendo un concepto puramente perceptivo. En definitiva, se puede concluir que el único concepto de realidad clásica es el estado de presente.

El contexto relativista

En consecuencia, los sistemas clásicos ofrecen una visión de la realidad como una secuencia continua de estados, mientras que la física cuántica la modifica, estableciendo que la dinámica de los sistemas es una secuencia discreta de estados. No obstante, la visión clásica no es más que una apariencia a nivel macroscópico. Sin embargo, la teoría de la relatividad [14] modifica la visión clásica, de tal forma que la descripción de un sistema es una secuencia de eventos. Si a esto se añade la visión cuántica, la descripción del sistema es una secuencia discreta de eventos.

Pero además, la teoría de la relatividad ofrece una perspectiva en la cual la percepción del tiempo depende del sistema de referencia y por tanto del observador. Así, tal como muestra la figura siguiente, los relojes en movimiento son más lentos que los relojes estacionarios, por lo que ya no se puede hablar de una única secuencia de tiempo, sino que ésta depende del observador.

No obstante, esto no modifica la hipótesis planteada, consistente es considerar el tiempo como la percepción de una secuencia de estados o de eventos. Esto refuerza la idea de que el tiempo emerge de una realidad subyacente y que su percepción varía en función de cómo es observado. De esta forma, cada observador tiene una visión independiente del tiempo, determinada por una secuencia de eventos.

Además de la percepción relativa del tiempo, la teoría de la relatividad tiene unas implicaciones más profundas, ya que establece un vínculo entre el espacio y el tiempo, de tal forma que el intervalo relativista

            ds2 = c2 dt2 – dx2 – dy2 – dz2 = c2 dt2 – (dx2 + dy2+ + dz2)

es un invariante y por tanto toma el mismo valor en cualquier sistema de referencia.

Como consecuencia, tanto la percepción del tiempo como del espacio depende del observador y tal como muestra la figura siguiente, eventos simultáneos en un sistema de referencia son observados como eventos que ocurren en diferentes instantes de tiempo en otro sistema de referencia, por lo que en éste no son simultáneos, dando origen al concepto de relatividad de la simultaneidad.

A pesar de este comportamiento, la visión del tiempo como la percepción de una secuencia de eventos no se ve modificada, ya que aunque las secuencias de los eventos en cada sistema de referencia están correlacionadas, en cada sistema de referencia se produce una secuencia de eventos que será interpretada como el flujo de tiempo correspondiente a cada observador.

Los argumentos anteriores son válidos para sistemas de referencias inerciales, o sea libres de aceleración. Sin embargo, la teoría de la relatividad general [15] basada en los principios de covariancia y de equivalencia, establece la métrica de la deformación del espacio-tiempo en presencia de materia-energía y de cómo esta deformación actúa como un campo gravitatorio. Estos principios se definen como:

  • El Principio de Covarianza establece que las leyes de la física deben tomar la misma forma en todos los sistemas de referencia.
  • El Principio de Equivalencia establece un sistema sometido a un campo gravitatorio es indistinguible de un sistema de referencia no inercial (sometido a aceleración).

Hay que apuntar que, aunque el principio de equivalencia fue fundamental en el desarrollo de la relatividad general, no es un ingrediente fundamental, y que no se verifica en presencia de campos electromagnéticos. 

De la teoría de la relatividad general se deduce que la aceleración curva el espacio-tiempo, siendo ejemplos paradigmáticos el corrimiento gravitacional hacia el rojo de los fotones escapando del campo gravitacional, o las lentes gravitacionales. Por esta razón, es esencial analizar el concepto planteado sobre de percepción del tiempo desde el punto de vista de esta perspectiva.

Así, la figura siguiente muestra un viaje de ida y vuelta a Andrómeda realizado por una nave propulsada con una aceleración a = g. En ella se puede apreciar el transcurso del tiempo en el sistema de referencia de la Tierra t y el tiempo propio en el sistema de referencia de la nave T, de tal forma que el transcurso del tiempo en la Tierra es más lento que en la nave en un valor determinado por g. El hecho de que el transcurso del tiempo sea producido por la velocidad de la nave en un sistema inercial o por la aceleración de la nave no modifica el razonamiento utilizado a lo largo del ensayo, ya que el transcurso del tiempo está determinado exclusivamente en cada uno de los sistemas de referencia por la secuencia de eventos observados en cada uno de ellos de forma independiente.

Por tanto, se puede concluir que la percepción del tiempo se produce por la secuencia de eventos ocurridos en el sistema de referencia de observación. Para evitar posibles interpretaciones de tipo antrópico, se puede proponer como observador un ente dotado de la capacidad de detección de eventos y desarrollar algoritmos de inteligencia artificial (IA). Como consecuencia, se puede concluir que el ente desarrollará un concepto de tiempo basado en la secuencia de eventos. Evidentemente, el concepto desarrollado no será reversible, ya que dicha secuencia está organizada por un índice.

No obstante, si los mecanismos de detección de eventos no fueran suficientemente precisos, el ente podría deducir que la dinámica del proceso pudiera ser cíclica y por tanto reversible. Sin embargo, la secuencia de eventos es ordenada y, por tanto, será interpretada fluyendo en una única dirección.

De esta forma, entes idénticos situados en diferentes sistemas de referencia percibirán una secuencia de eventos de la dinámica diferentes, determinados por las leyes de la relatividad. Pero la realidad subyacente establece una marca en cada uno de los eventos que se define como tiempo físico, y al que están sujetos de forma inexorable los entes observadores en sus relojes de tiempo real. Por tanto, la pregunta que queda por responder es cuál es la naturaleza de este comportamiento.

El tiempo físico

Hasta el momento se ha utilizado el término percepción para soslayar este tema. Pero es evidente que aunque los relojes de tiempo real corran a diferente velocidad en diferentes sistemas de referencia, todos los relojes están perfectamente sincronizados. Pero para que esto sea posible es necesaria una conexión total del universo en su realidad subyacente. Esto debe ser así, ya que los relojes situados en los diferentes sistemas de referencia corren de forma sincronizada, independientemente de su localización, aunque estos corran a diferente velocidad.

Así, en el ejemplo del viaje a Andrómeda, cuando la nave vuelve a la Tierra, el tiempo transcurrido en el viaje en el sistema de referencia de la Tierra es T = 153,72 años, mientras que en el reloj de la nave es t = 16,92 años, pero ambos relojes están sincronizados por el parámetro g, de tal forma que estos corren de acuerdo a la expresión dt = γdT. La pregunta que surge es: ¿Qué indicios existen de que la realidad subyacente del universo sea una estructura totalmente conectada?

Hay varios indicios físicos que surgen de la física relativista y la cuántica, como son el espacio-tiempo en el sistema de referencia del fotón y el entrelazado de partículas cuánticas. Así, en el caso del fotón γ→∞, por lo que cualquier intervalo de tiempo y espacio en la dirección del movimiento en el sistema de referencia del observador tiende a cero en el sistema de referencia del fotón. Si además consideramos que el estado del fotón es una superposición de estados  en cualquier dirección, el universo para un fotón es un punto singular sin dimensiones espacio-temporales. Esto sugiere que el espacio-tiempo surge de una realidad subyacente de la que emerge el tiempo como una realidad completamente sincronizada desde el punto de vista cosmológico.

En el contexto de la física cuántica, el entrelazado de partículas proporciona otra pista sobre las interconexiones existente en la estructura sobre las que se fundamenta la realidad clásica. Así, la medida de dos partículas entrelazadas supone el intercambio de información cuántica entre independientemente de su posición en el espacio y de forma instantánea, tal como se deduce de la superposición de estados cuánticos y que Schrödinger planteo como un experimento mental en el “gato de Schrödinger” [16]. Este comportamiento parece contradecir la imposibilidad de transferir información a mayor velocidad que la de la luz, lo que plateó una controversia conocida como la paradoja EPR [17], la cual ha sido resuelta teórica y experimentalmente [18], [19].

Por tanto, a escala clásica la información no puede viajar a mayor velocidad que la de la luz, sin embargo, a escala cuántica la realidad se comporta como si no existieran limitaciones espacio-temporales. Esto indica que el espacio y el tiempo son realidades que emergen a escala clásica pero que no tienen una realidad cuántica, sino que a partir de una realidad cuántica, que es desconocida hasta el momento, emerge el espacio-tiempo a escala clásica.

Pero quizá el argumento que soporte con mayor claridad la interconexión global del espacio-tiempo es el Principio de Covarianza, que reconoce esta interconexión de forma explícita, al establecer que las leyes de la física deben tomar la misma forma en todos los sistemas de referencia.

Finalmente, la cuestión que se plantea es la naturaleza subyacente del espacio-tiempo. En el estado actual de desarrollo de la física se dispone del Modelo Estándar de Partículas que describe las interacciones cuánticas entre partículas en el contexto del espacio-tiempo. En este esquema teórico, el espacio-tiempo se identifica con el vacío, que en la teoría cuántica de campos se identifica con el vacío cuántico que  es el estado cuántico con la menor energía posible, Pero este modelo no parece permitir hacer un análisis teórico sobre como emerge el espacio-tiempo. Quizá, el desarrollo de un modelo de campos que den sentido a la realidad física del vacío y que integre el modelo estándar de partículas permita en el futuro indagar sobre como la realidad espacio-tiempo emerja de este modelo.

[1]N. Emery, N. Markosian y M. Sullivan, «”Time”, The Stanford Encyclopedia of Philosophy (Winter 2020 Edition), Edward N. Zalta (ed.), URL = <https://plato.stanford.edu/archives/win2020/entries/time/&gt;,» [En línea].
[2]J. M. E. McTaggart, «The Unreality of Time, http://www.jstor.org/stable/2248314,» Mind, vol. 17, nº 68, pp. 457-474, 1908.
[3]S. Baron, K. Miller y J. Tallant, Out of Time. A Philosophical Study of Timelessness, Oxford University Press, 2022.
[4]A. S. Eddington, The nature of the physical world, Cambridge University Press, 1948.
[5]C. Rovelli, The order of time, Riverhead Books, 2018.
[6]C. E. Shannon, “A Mathematical Theory of Communication,” The Bell system technical journal, vol. 27, pp. 379-423, 623-656, 1948.
[7]P. Ball, Designing the Molecular World, Princeton University Press, 1994.
[8]L. E. Ballentine, Quantum Mechanics. A Modern Development. Chapter 3., World Scientific Publishing Co., 2000.
[9]A. Ben-Naim, A Farewell to Entropy: Statistical Thermodynamics Based on Information, World Publishing Company, 2008.
[10]F. Schwabl, Statistical Mechanics, pp. 491-494, Springer, 2006.
[11]A. Ashtekar y E. Bianchi, «A Short Review of Loop Quantum Gravity <arXiv:2104.04394v1 [gr-qc]>,» 2021.
[12]L. Smolin, «The case for background independence. URL = < https://arxiv.org/abs/hep-th/0507235v1&gt;,» 2005. [En línea].
[13]I. Reznikoff, «A class of deductive theories that cannot be deterministic: classical and quantum physics are not deterministic. URL = https://arxiv.org/abs/1203.2945v3,» 2013. [En línea].
[14]A. Einstein, «Sobre la electrodinámica de los cuerpos en movimiento,» Traducción de la versión inglesa realizada por A. Ponce, 1905.
[15]T. P. Cheng, Relativity, Gravitation and Cosmology, Oxford University Press, 2010.
[16]E. Schrödinger, «The Present Situation in Quantum Mechanics. (Trans. John Trimmer),» Naturwissenschaften, vol. 23, pp. 844-849, 1935.
[17]A. Einstein, B. Podolsky and N. Rose, “Can Quantum-Mechanical Description of Physical Reality be Considered Complete?,” Physical Review, vol. 47, pp. 777-780, 1935.
[18]J. S. Bell, «On the Einstein Podolsky Rosen Paradox,» Physics, vol. 1, nº 3, pp. 195-290, 1964.
[19]A. Aspect, P. Grangier and G. Roger, “Experimental Tests of Realistic Local Theories via Bell’s Theorem,” Phys. Rev. Lett., vol. 47, pp. 460-463, 1981.

El cerebro predictivo

Si bien se han hecho progresos significativos en el campo de la neurología y en particular en los circuitos neuronales que soportan la percepción y la actividad motora, la comprensión de las estructuras neuronales, de cómo estas codifican la información y establecen los mecanismos de aprendizaje sigue siendo objeto de investigación.

Las técnicas de proceso digital de audio e imagen y los avances en inteligencia artificial (IA) son una fuente de inspiración para comprender estos mecanismos. Sin embargo, parece claro que estas ideas no son directamente extrapolables a la funcionalidad del cerebro.

Así, por ejemplo, el proceso de una imagen es estático, ya que los sensores digitales proporcionan imágenes completas de la escena. Por el contrario, la información codificada por le retina no es homogénea, existiendo grandes diferencias en la resolución entre la fóvea y las zonas circundantes, por lo que la composición de imágenes está necesariamente espacialmente segmentada.

Pero estas diferencias son mucho más acusadas si se considera que esta información es dinámica en el tiempo. En el caso del proceso digital de vídeo se puede establecer una correlación de las imágenes que componen una secuencia. Una correlación que en el caso del  sistema visual es mucho más compleja, debido a la segmentación espacial de las imágenes y a como esta información es obtenida por medio de los movimientos sacádicos de los ojos.

La información generada por la retina es procesada por la corteza visual primaria (V1) la cual tiene un mapa bien definido de la información espacial y realiza además funciones de reconocimiento de características simples. Esta información progresa hacia la corteza visual secundaria (V2) la cual es responsable de componer la información espacial generada por el movimiento sacádico de los ojos.

Esta estructura ha sido el marco teórico dominante, en lo que se ha denominado modelo jerárquico feedforward [1]. Sin embargo, se ha comprobado que ciertas neuronas de las regiones V1 y V2 tienen una respuesta sorprendente. Parece que saben lo que va a ocurrir en  un futuro inmediato, activándose como si pudieran percibir la nueva información visual sin que esta haya sido producida por la retina [2], en lo que se define como Procesado Predictivo (PP) [3], y que está adquiriendo influencia en la neurociencia cognitiva, aunque es criticado por carecer de apoyo empírico que lo justifique.

Por esta razón, el objetivo de este post es analizar este comportamiento desde el punto de vista de las técnicas de procesado de señal y de los sistemas de control, las cuales muestran que el sistema nervioso no sería capaz de interaccionar con la realidad circundante a menos que realice funciones de PP.  

Un breve repaso a los sistema de control

El diseño de un sistema de control se fundamenta en una técnica madura [4], aunque los avances en el procesado digital de señal producidos en las últimas décadas permiten la implementación de sistemas altamente sofisticados. No vamos a entrar en detalles sobre estas técnicas y sólo nos centraremos en los aspectos necesarios para justificar el posible PP realizado por el cerebro.

Así, un sistema de control en bucle cerrado está compuesto por tres bloques fundamentales:

  • Realimentación: Este bloque determina el estado del objetivo bajo control.
  • Control: Determina las acciones a tomar en función de la referencia y de la información sobre el estado del objetivo.
  • Proceso: Traduce las acciones determinadas por el control al mundo físico del objetivo.

La funcionalidad de un sistema de control se pone claramente de manifiesto en el ejemplo representado en la figura. En este caso la referencia es la posición del balón y el objetivo es que el robot golpee el balón con precisión.

Los sensores del robot deben determinar en tiempo real la posición relativa del balón y todos los parámetros que definen la estructura del robot (realimentación). A partir de estos, el control debe determinar los parámetros de movimiento del robot necesarios para alcanzar el objetivo, generando las órdenes de control que activan los servomecanismos del robot.

El análisis teórico de esta estructura funcional permite determinar la estabilidad del sistema, la cual determina su capacidad para desarrollar correctamente la funcionalidad para la cual ha sido diseñado. Este análisis muestra que el sistema puede mostrar dos casos extremos de comportamiento. Con objeto de simplificar el razonamiento, eliminaremos el balón y supondremos que el objetivo es alcanzar una determinada posición.

En el primer caso supondremos que el robot tiene una capacidad de movimiento tal que puede realizar movimientos rápidos sin limitación, pero que los mecanismos de medida que determina la posición del robot requieren un cierto tiempo de proceso Δt. Como consecuencia, las decisiones del bloque de control no son en tiempo real ya que las decisiones en t = ti corresponden en realidad a t = ti-Δt, siendo Δt el tiempo necesario para procesar la información procedente de los mecanismos sensores. Por tanto, cuando el robot se aproxime al punto de referencia el control tomará decisiones como si estuviera algo alejado, lo que ocasionará que el robot supere la posición del objetivo. Cuando esto ocurra, el control deberá corregir el movimiento volviendo hacia atrás la trayectoria del robot. Este comportamiento se define como régimen subamortiguado (underdamped).

Por el contrario, si suponemos que el sistema de medida tiene un tiempo de respuesta rápido, tal que Δt≅0, pero que la capacidad de movimiento del robot es limitada, entonces el control tomará decisiones en tiempo real, pero la aproximación al objetivo será lenta hasta alcanzar con precisión dicho objetivo. Ese comportamiento se define como régimen sobreamortiguado (overdamped).

En el límite de estos dos comportamientos se encuentra el régimen amortiguado crítico (critically damped) que optimiza la rapidez y precisión para alcanzar el objetivo. El comportamiento de estos regímenes está representado en la figura.

Formalmente, el análisis anterior corresponde a sistemas en que los bloques funcionales son lineales. El desarrollo de las técnicas de procesado digital permite la implantación de bloques funcionales con una respuesta no lineal, lo que da como resultado sistemas de control mucho más eficientes en lo relativo a la rapidez de respuesta y de precisión. Además, permiten implementar técnicas de procesado predictivo utilizando las leyes de la mecánica. Así, si la referencia es una entidad pasiva su trayectoria es conocida a partir de las condiciones iniciales. En caso de que sea una entidad activa, o sea dispone de mecanismos internos que puedan modificar su dinámica, pueden utilizarse funciones heurísticas e IA [5].

El cerebro como un sistema de control

Tal como muestra la figura siguiente, el conjunto formado por el cerebro, los órganos motores y los órganos sensores forman un sistema de control. Por consiguiente, este sistema puede ser analizado con las técnicas de los sistemas de control realimentados.

Para ello es necesario analizar los tiempos de respuesta de cada uno de los bloques funcionales. En este sentido hay que destacar que el sistema nervioso tiene un comportamiento temporal relativamente lento [6]. Así, por ejemplo, el tiempo de respuesta para iniciar el movimiento en una carrera de 100 metros lisos es de 120-165 ms. Este tiempo se distribuye en reconocer la señal de salida, el tiempo de proceso del cerebro para interpretar esta señal y generar las órdenes de control hacia los órganos motores, y la puesta en funcionamiento de estos órganos. En el caso de los movimientos oculares hacia un nuevo objetivo el tiempo de respuesta es de 50-200 ms. Estos tiempos dan una idea de la velocidad de proceso de los diferentes órganos que intervienen en los diferentes escenarios de interacción con la realidad.

Ahora, supongamos varios escenarios de interacción con el entorno:

  • Un futbolista que pretende golpear un balón que se mueve a una velocidad de 10 Km/hora. En un tiempo de 0.1 s. el balón de habrá desplazado 30 cm.  
  • Un tenista que debe impactar a una bola que se mueve a 50 Km/hora. En un tiempo de 0.1 s. la bola de habrá desplazado 150 cm. 
  • Asir una taza inmóvil desplazándose la mano a una velocidad 0.5 m/s. En un tiempo de 0.1 s. la mano se habrá desplazado 5 cm.

Estos ejemplos muestran que si se considera el cerebro como un sistema de control clásico es prácticamente imposible obtener la precisión necesaria que justifique el comportamiento del sistema. Así, en el caso del futbolista la información obtenida por el cerebro procedente de los órganos sensores, en este caso de la vista, estará retrasada en el tiempo, proporcionando una posición relativa del pie respecto del balón con un error del orden de centímetros, por lo que el golpeo del balón será muy impreciso.

El mismo razonamiento se puede hacer en el caso de los otros dos escenarios propuestos, por lo que es necesario indagar en los mecanismos que utiliza el cerebro para obtener una precisión que justifique su comportamiento real, mucho más preciso que el proporcionado por un sistema de control basado en la respuesta temporal de las neuronas y del tejido  nervioso.

Para ello, supongamos el caso de asir la taza y hagamos un sencillo ejercicio de introspección. Si cerremos los ojos un instante podremos observar que tenemos un conocimiento preciso del entorno. Este conocimiento se va actualizando a medida que interaccionamos con el entorno y la mano se aproxime a la taza. Este comportamiento espacio-temporal permite predecir con la precisión necesaria cual será la posición de la mano y de la taza en todo instante, a pesar del retardo producido por el sistema nervioso.

A esto hay que añadir el conocimiento adquirido por el cerebro sobre la realidad espacio-tiempo y las leyes de la mecánica. De esta forma, el cerebro puede predecir la trayectoria más probable de la bola en el escenario del tenista. Esto queda patente en la importancia del entrenamiento en las actividades deportivas, ya que este conocimiento debe de refrescarse con frecuencia para proporcionar la precisión necesaria. Sin los mecanismos de predicción expuestos el tenista no sería capaz de golpear la bola.

En consecuencia, del análisis del comportamiento del sistema formado por los órganos sensoriales, el cerebro y los órganos motores se deduce que el cerebro debe realizar funciones de Proceso Predictivo. De lo contrario, y como consecuencia del tiempo de respuesta del tejido nervioso, el sistema no sería capaz de interactuar con el entorno con la precisión y rapidez mostrada en la práctica. De hecho, para compensar el retardo introducido por los órganos sensoriales y su posterior interpretación por el cerebro, éste debe predecir y adelantar las órdenes hacia los órganos motores en un intervalo de tiempo que puede estimarse en varias decenas de milisegundos.

Los fundamentos neurológicos de la predicción

Tal como se ha justificado en el apartado anterior, de la respuesta temporal del tejido nervioso y del comportamiento del sistema formado por los órganos sensoriales, el cerebro y los órganos motores se deduce que el cerebro debe soportar dos funciones fundamentales: codificar y procesar sistemas de referencia de la realidad circundante y realizar PP.

Pero: ¿Qué evidencias hay de que esto sea así? Desde hace varias décadas es conocido que existen neuronas en la corteza entorrinal y en el hipocampo que responden a un modelo espacial denominadas grid cells [7]. Pero recientemente se ha comprobado que en el neocórtex existen estructuras capaces de representar sistemas de referencia y que estas estructuras pueden representar tanto un mapa espacial como cualquier otra estructura funcional necesaria para representar conceptos, lenguaje y razonamiento estructurado [8].

Por tanto, la cuestión que debe resolverse es como el sistema nervioso realiza el PP. Como ya se ha adelantado, el PP es una funcionalidad discutida por su falta de evidencia. El problema que plantea es que el número de neuronas que presentan un comportamiento predictivo es muy escaso, comparado con el número de neuronas que se activan como consecuencia de un estímulo.

La respuesta a este problema puede estar en el modelo propuesto por Jeff Hawkins y Subutai Ahmad [9] basado en la funcionalidad de las neuronas piramidales [10], cuya función está relacionada con el control motor y con la cognición, áreas en las que el PP debe ser fundamental.

La figura siguiente muestra la estructura de una neurona piramidal, que es el tipo de neurona más común en el neocórtex. Las dendritas próximas al cuerpo de la célula se denominan sinapsis proximales, de tal forma que la neurona se activa si estas reciben suficiente excitación. El impulso nervioso generado por la activación de la neurona se propaga hacia otras neuronas a través del axón, el cual se ha representado por medio de una flecha.

Esta descripción corresponde a una visión clásica de la neurona, pero las neuronas piramidales tienen una estructura mucho más compleja. Las dendritas que radian desde la zona central están dotadas de cientos o miles de sinapsis, denominadas sinapsis distales, de tal forma que aproximadamente el 90% de las sinapsis están localizadas sobre estas dendritas. También, en la parte superior de la figura se muestran dendritas que tienen un alcance mayor, las cuales  tienen una funcionalidad de realimentación.

Lo notable de este tipo de neuronas es que si un grupo de sinapsis de una dendrita distal próximas entre si reciben señal al mismo tiempo se produce un nuevo tipo de impulso nervioso que se propaga a lo largo de la dendrita hasta alcanzar el cuerpo de la célula. Esto provoca un incremento del voltaje de la célula, pero sin llegar a producir su activación, por lo que no genera un impulso nervioso hacia el axón. La neurona permanece en este estado un corto periodo de tiempo, volviendo a su estado de relajación.

La pregunta es: ¿Para qué sirven estos impulsos nerviosos de las dendritas si no son lo suficientemente potentes como para producir la activación de la célula? Esto ha sido una incógnita que pretende ser resuelta por el modelo propuesto por Hawkins y Ahmad [9], y que propone que los impulsos nerviosos en las dendritas distales son predicciones.

Esto significa que un impulso en la dendrita se produce cuando un conjunto de sinapsis cercanas entre sí en una dendrita distal reciben entradas al mismo tiempo, y significa que la neurona ha reconocido un patrón de actividad determinado por un conjunto de neuronas. Cuando se detecta el patrón de actividad se crea un impulso dendrítico, que eleva el voltaje en el cuerpo de la célula, poniendo a la célula en lo que llamamos un estado de predicción.

La neurona está entonces preparada para dispararse. Si una neurona en estado de predicción recibe posteriormente una entrada proximal suficiente para crear un potencial de acción que la dispare, entonces la neurona se dispara un poco antes de lo que lo haría si la neurona no estuviera en estado de predicción.

De esta forma, el mecanismo de predicción se fundamenta en la idea de que múltiples neuronas  de una minicolumna neuronal [11] participan en la predicción de un patrón, entrando todas ellas en un estado de predicción, de tal forma que cuando una de ellas se dispara inhibe el disparo del resto. Esto significa que en una minicolumna se realizan cientos o miles de predicciones de forma simultánea sobre un cierto escenario de control, de tal forma que una de las predicciones prevalecerá sobre el resto, optimizando la precisión del proceso. Esto justifica el hecho del escaso número de eventos predictivos observados frente la actividad neuronal global y también explica porqué eventos o patrones inesperados producen una mayor actividad que los eventos más predecibles o esperados.

Si se tiene en cuenta la estructura neuronal de las minicolumnas es fácil comprender como este mecanismo involucra un gran número de predicciones para el tratamiento de un único patrón, pudiéndose decir que el cerebro está realizando de forma continua predicciones sobre el entorno, lo que permite la interacción en tiempo real.

El PP desde el punto de vista de la IA

De acuerdo al análisis anterior se puede concluir que el PP realizado por el cerebro dentro de una ventana de tiempo, del orden de las decenas de milisegundos, es fundamental para la interacción con la realidad circundante, sincronizando dicha realidad con la realidad percibida. Pero esta capacidad de adelantar los acontecimientos percibidos requiere de otros mecanismos como son la necesidad de establecer sistemas de referencia así como la capacidad de reconocimiento de patrones.

En el tema planteado, es evidente la necesidad de disponer de sistemas de referencia en el que puedan ser representados los objetos, tales como la posición dinámica de los órganos motores y de los objetos con los que interaccionar. Además de esto, el cerebro debe ser capaz de reconocer dichos objetos.

Pero estas capacidades son comunes a todo tipo de escenarios, aunque quizá es más apropiado utilizar el término modelo como alternativa a sistema de referencia, ya que es un concepto más general. Así, por ejemplo, en la comunicación verbal es necesario disponer de un modelo que represente la estructura del lenguaje, además de una capacidad para reconocer los patrones codificados en los estímulos percibidos a través del sistema auditivo. En este caso, el PP debe jugar un papel fundamental, ya que la predicción permite una mayor fluidez en la comunicación verbal, tal como se pone de manifiesto cuando existen retardos en un canal de comunicación. Esto es quizá más evidente en el sincronismo necesario en la coordinación musical.

La enorme complejidad del tejido nervioso y la dificultad para identificar de forma empírica estos mecanismos puede ser un obstáculo para comprender su comportamiento. Por esta razón, la IA es una fuente de inspiración [12] ya que mediante diferentes arquitecturas de redes neuronales se muestra cómo se pueden establecer modelos de realidad y realizar predicciones sobre dicha realidad.

Hay que destacar que estos modelos no pretenden ofrecer modelos biológicos realistas. No obstante, son modelos matemáticos fundamentales en el paradigma del aprendizaje automático y de la inteligencia artificial y son una herramienta fundamental en la investigación neurológica. En este sentido es importante destacar que el PP no solo es una funcionalidad necesaria para la predicción temporal de los eventos, sino que como muestran las redes neuronales artificiales el reconocimiento de patrones es intrínsecamente una función de predicción.

Esto puede pasar desapercibido en el caso del cerebro, ya que el reconocimiento de patrones alcanza tal exactitud que hace que el concepto de predicción quede muy diluido y parezca libre de de factores probabilísticos. Por el contrario, en el caso de la IA los modelos matemáticos dejan claro que el reconocimiento de patrones tiene una naturaleza probabilística y los resultados prácticos muestran una diversidad de resultados.

Esta diversidad depende de varios factores. Quizá el más importante es su estado de desarrollo que puede considerarse todavía muy primario, comparado con la complejidad estructural, la capacidad proceso y la eficiencia energética del cerebro. Esto hace que las aplicaciones de IA estén orientadas a casos concretos en los que ha mostrado su eficacia, como por ejemplo en ciencias de la salud [13] o en la determinación de estructuras de proteínas [14].

Pero sin entrar en un análisis más profundo de estos factores, lo que se puede concluir es que la funcionalidad del cerebro se fundamenta en el establecimiento de modelos de realidad y en la predicción de patrones, siendo una de sus funciones la predicción temporal que es el fundamento del PP.  

Referencias

[1]J. DiCarlo, D. Zoccolan y N. Rust, «How does the brain solve visual object recognition?,» Neuron, vol. 73, pp. 415-434, 2012.
[2]A. Clark, «Whatever next? Predictive brains, situated agents, and the future of cognitive science,» Behav. Brain Sci., vol. 34, p. 181–204, 2013.
[3]W. Wiese y T. Metzinger, «Vanilla PP for philosophers: a primer on predictive processing.,» In Philosophy and Predictive Processing. T. Metzinger &W.Wiese, Eds., pp. 1-18, 2017.
[4]G. F. Franklin, J. D. Powell y A. Emami-Naeini, Feedback Control of Dynamic Systems, Pearson; 8a edición, 2019.
[5]C. Su, S. Rakheja y H. Liu, «Intelligent Robotics and Applications,» de 5th International Conference, ICIRA, Proceedings, Part II, Montreal, QC, Canada, 2012.
[6]A. Roberts, R. Borisyuk, E. Buhl, A. Ferrario, S. Koutsikou, W.-C. Li y S. Soffe, «The decision to move: response times, neuronal circuits and sensory memory in a simple vertebrate,» Proc. R. Soc. B, vol. 286: 20190297, 2019.
[7]M. B. Moser, «Grid Cells, Place Cells and Memory,» de Nobel Lecture. Aula Medica, Karolinska Institutet, Stockholm, http://www.nobelprize.org/prizes/medicine/2014/may-britt-moser/lecture/, 2014.
[8]M. Lewis, S. Purdy, S. Ahmad y J. Hawkings, «Locations in the Neocortex: A Theory of Sensorimotor Object Recognition Using Cortical Grid Cells,» Frontiers in Neural Circuits, vol. 13, nº 22, 2019.
[9]J. Hawkins y S. Ahmad, «Why Neurons Have Tousands of Synapses, Theory of Sequence Memory in Neocortex,» Frontiers in Neural Circuits, vol. 10, nº 23, 2016.
[10]G. N. Elston, «Cortex, Cognition and the Cell: New Insights into the Pyramidal Neuron and Prefrontal Function,» Cerebral Cortex, vol. 13, nº 11, p. 1124–1138, 2003.
[11]V. B. Mountcastle, «The columnar organization of the neocortex,» Brain, vol. 120, p. 701–722, 1997.
[12]F. Emmert-Streib, Z. Yang, S. Tripathi y M. Dehmer, «An Introductory Review of Deep Learning for Prediction Models With Big Data,» Front. Artif. Intell., 2020.
[13]A. Bohr y K. Memarzadeh, Artificial Intelligence in Healthcare, Academic Press, 2020.
[14]E. Callaway, «‘It will change everything’: DeepMind’s AI makes gigantic leap in solving protein structures,» Nature, nº 588, pp. 203-204, 2020.

Una interpretación del colapso de la función de onda

El objetivo de este post es plantear una hipótesis sobre el colapso de la función de onda basado en la entropía termodinámica y la reversibilidad computacional. Para ello se utilizarán argumentos basados en la mecánica estadística, tanto cuántica como clásica, y en la teoría de la computación y de la teoría de la información. 

En este sentido,  interesante resaltar como la mayor parte de los procesos naturales tienen un comportamiento reversible, entre los que hay que destacar los modelos de gravitación, electromagnetismo y física cuántica. En particular, este último es sobre el que se sustentan todos los modelos de la realidad emergente y que configuran  la realidad clásica (realidad macroscópica).

Por el contrario, los procesos termodinámicos tienen un comportamiento irreversible, que contrasta con los modelos anteriores y que plantea una contradicción originalmente propuesta por Loschmidt, ya que se sustentan sobre la física cuántica, la cual tiene una naturaleza reversible. Además hay que resaltar que los procesos termodinámicos son esenciales para comprender la naturaleza de la realidad clásica, ya que éstos están presentes en todas las interacciones macroscópicas.

Esto plantea la cuestión siguiente. Si el universo como una entidad cuántica es un sistema absolutamente reversible, ¿cómo es posible que en su seno existan comportamientos irreversibles?

Esta conducta irreversible se materializa en la evolución de la entropía termodinámica, de tal forma que la dinámica de los sistemas termodinámicos está determinada por un incremento de la entropía a medida que el sistema evoluciona en el tiempo. Esto determina que la complejidad de la realidad clásica emergente crece de forma sostenida en el tiempo y por tanto la cantidad de información del universo clásico.

Para contestar a esta pregunta se planteará una hipótesis sobre como el colapso de la función de onda es el mecanismo que determina como emerge la realidad clásica a partir de la naturaleza cuántica subyacente, justificando el incremento de la entropía y como consecuencia el aumento de la cantidad de información.

Para profundizar en este tema procederemos a analizarlo desde el punto de vista de la teoría de la computación y de la teoría de la información, poniendo hincapié en el sentido y naturaleza del concepto de entropía. Este punto de vista es fundamental, ya que cantidad de información y entropía como sinónimos del mismo fenómeno.

La computación reversible

En primer lugar debemos analizar que es la computación reversible y como es su implementación. Para comenzar, se debe destacar que la computación clásica tiene una naturaleza irreversible, lo cual se pone de manifiesto con un simple ejemplo, como es la puerta XOR, que constituye un conjunto universal en computación clásica, lo que significa que con un conjunto de estas puertas se puede implementar cualquier función lógica.

Esta puerta realiza la función lógica X⊕Y a partir de las variables lógicas X e Y, de tal forma que en este proceso el sistema pierde un bit de información, ya que la información de entrada corresponde a dos bit de información, mientras que la salida sólo tiene un bit de información. Por tanto, una vez ejecutada la función X⊕Y no es posible recuperar  los valores de las variables X e Y.

De acuerdo al principio de Landauer [1], esta pérdida de información significa que el sistema disipa energía en el entorno, incrementando su entropía, de tal forma que la pérdida de un bit de información disipa una energía mínima k·T·ln2 en el medio ambiente. Donde k es la constante de Boltzmann y T la temperatura absoluta del sistema. 

Por tanto, para que un sistema clásico sea reversible debe verificar que no pierde información, por lo que se deben verificar dos condiciones:

  • El número de bits de entrada y salida debe ser el mismo.
  • La relación entre entradas y salidas debe ser biyectiva.

La figura siguiente muestra los criterios expuestos anteriormente. Pero esto no significa que la función lógica pueda considerarse un conjunto completo de implementación en un contexto computacional reversible, ya que la relación entre entradas y salidas es lineal y, por tanto, no pueden implementar funciones no lineales.

Se demuestra que para que esto sea posible el número de bits debe ser n³3, siendo un ejemplo de ello la puertas de Toffoli (X,Y,Z)→(X,Y,Z⊕XY) y de Fredkin (X,Y,Z)→(X, XZ+¬XY,XY+¬XZ), donde ¬ es la negación lógica.

Para que este tipo de puertas formen un conjunto universal de computación cuántica es necesario además que verifiquen la capacidad de implementación de funciones no lineales, por lo que de acuerdo a su tabla de verdad la puerta de Toffoli no es un conjunto cuántico universal, a diferencia de la puerta de Fredkin que si lo es.

Una de las razones para estudiar los modelos universales reversibles de computación, como el modelo de bola de billar propuesto por Fredkin y Toffoli  [2], es que teóricamente podrían conducir a sistemas computacionales reales que consuman cantidades muy bajas de energía.

Pero donde estos modelos adquieren relevancia es en la computación cuántica, ya que la teoría cuántica tiene una naturaleza reversible, lo que permite implementar algoritmos reversibles mediante la utilización de puertas lógicas reversibles. La reversibilidad de estos algoritmos abre la posibilidad de reducir la energía disipada en su ejecución y aproximarse al límite de Landauer.

Fundamentos de la computación cuántica

En el caso de la computación clásica un bit de información puede tomar uno de los valores {0,1}. Por el contrario, el estado de una variable cuántica es una superposición de sus estados propios. Así, por ejemplo, los estados propios del espín de una partícula respecto de unos ejes de referencia son {|0〉, |1〉}, de tal forma que el estado de la partícula |Ψ〉puede estar en una superposición de los estados propios |Ψ〉= α|0〉+ β|1〉, α2+ β2 = 1. Esto es lo que se denomina qubit, de tal forma que un qubit puede codificar simultáneamente los valores {0,1}.

Así, en un sistema formado por n qubits su función de onda puede expresarse como:

|Ψ〉 = α0|00…00〉+α1|00…01〉+α2|00…10〉+…+αN-1|11…11〉, Σ(αi)2 =1, N=2n,

de tal forma que el sistema puede codificar las N posibles combinaciones de n bits y procesarlas de forma simultánea, lo que supone una aceleración exponencial frente a la computación clásica.

La evolución temporal de la función de onda de un sistema cuántico está determinada por una transformación unitaria, |Ψ’〉 = U|Ψ〉, de tal forma que la conjugada transpuesta de U es su inversa, UU = UU= I. Por lo que el proceso es reversible |Ψ〉 = U|Ψ’〉 = UU|Ψ〉, manteniéndose constante la entropía del sistema a lo largo del proceso, por lo que la implementación de algoritmos de computación cuántica se debe realizar con puertas lógicas reversibles. Como ejemplo, la función inversa de la puerta de Ferdkin es ella misma, tal como se puede fácilmente deducir de su definición.

La evolución del estado del sistema cuántico continúa hasta que éste interacciona con un dispositivo de medida, en lo que se define como la medida cuántica, de tal forma que el sistema colapsa en uno de sus posibles estados |Ψ〉 = |i〉, con una probabilidad (αi)2. Sin entrar en más detalles, este comportamiento plantea un debate filosófico que sin embargo tiene una confirmación empírica.

Otra característica fundamental de la realidad cuántica es el entrelazado de partículas y que juega un papel fundamental en la implementación de algoritmos cuánticos, criptografía cuántica y teleportación cuántica.

Para entender que significa el entrelazado de partículas analicemos primero la función de onda de dos partículas cuánticas independientes. Así, la función de onda de un sistema cuántico formado por dos qubits, |Ψ0〉 = α00|0〉+ α01|1〉, |Ψ1〉 = α10|0〉+ α11|1〉, puede expresarse como:  

|Ψ〉= |Ψ0〉⊗ |Y1〉= α00·α10|00〉+α00·α11|01〉+α01·α10|10〉+α01·α11|11〉,

de tal forma que ambos qubits se comportan como sistemas independientes, ya que esta expresión es factorizable en las funciones  |Ψ0〉 y |Ψ1〉. Donde ⊗ es el producto tensorial.

Sin embargo, la teoría cuántica admite soluciones para el sistema, tales como |Ψ〉= |00〉+β|11〉, α2+ β2 = 1, de tal forma que si se realiza una medida sobre uno de los qubits, el estado cuántico del otro colapsa de forma instantánea, independientemente de la localización de los qubit entrelazados.

Así, si uno de los qubit colapsa en el estado |0〉 el otro qubit colapsa también en el estado |0〉. Por el contrario, si el qubit colapsa en el estado |1〉 el otro qubit colapsa también en el estado |1〉. Esto significa que el sistema cuántico entrelazado se comporta no como un conjunto de qubits independientes, sino que estos forman un único sistema cuántico inseparable, hasta que se realiza la medida del sistema.

Este comportamiento parece violar el límite de velocidad impuesto por la teoría de la relatividad, violando el principio de localidad, que establece que el estado de un objeto es sólo influenciado por su entorno inmediato. Estas inconsistencias dieron origen a lo que se conoce como la paradoja EPR [3], planteando que la teoría cuántica era una teoría incompleta que requería de la existencia de variables locales ocultas en el modelo cuántico.

Sin embargo, el teorema de Bell [4] permite probar que la física cuántica es incompatible con la existencia de variables locales ocultas. Para ello, Bell determinó que resultados se deberían  obtener de la medida de partículas entrelazadas, suponiendo la existencia de variables locales ocultas. Esto conduce al establecimiento de una restricción sobre cómo se correlacionan los resultados de la medida, conocida como desigualdades de Bell.

Los resultados experimentales obtenidos por A. Aspect [5] han permitido demostrar que el entrelazado de partículas es un hecho real en el mundo de la cuántica, por lo que el modelo de la física cuántica es completo y no requiere de la existencia de variables locales ocultas.

En definitiva, la computación cuántica está estrechamente unida al modelo de la física cuántica, basado en los conceptos de: superposición de estados, transformaciones unitarias y medida cuántica. A esto hay que añadir el entrelazado de partículas, de tal forma que un sistema cuántico puede estar formado por un conjunto de partículas entrelazadas, que forman un único sistema cuántico.

Basada en estos conceptos, la estructura de un computador cuánto es la representada en la figura siguiente. Sin entrar en detalles sobre la estructura funcional de cada bloque, las puertas lógicas que constituyen el algoritmo cuántico realizan una función específica, por ejemplo el producto de dos variables. En este caso, los qubit de entrada codificarían todas las combinaciones posibles de las variables de entrada, obteniendo como resultado todos los posibles productos de las variables de entrada, codificados en la superposición de estados de los qubit de salida.

Para que la información emerja al mundo clásico es necesario realizar la medida del conjunto de qubit de salida, de tal forma que el estado cuántico colapsa de forma aleatoria en uno de sus estados propios, que se materializa en un conjunto de bits que codifica uno de los posibles resultados.

Pero esto no parece tener una utilidad práctica. Por un lado, la computación cuántica supone una aceleración exponencial, al ejecutar todos los productos de forma simultánea. Pero toda esta información se pierde al hacer la medida de la información cuántica. Por esta razón, la computación cuántica requiere estrategias de diseño de los algoritmos que resuelvan este problema.

El algoritmo de factorización de Shor [6] es un claro ejemplo de ello. En este caso, los qubit de entrada codificarán el número a factorizar, de tal forma que el algoritmo cuántico obtendrá de forma simultánea todos los divisores primos del número. Al hacer la medida cuántica se obtendrá un único factor, lo que permitirá obtener de forma secuencial el resto de divisores en tiempo polinómico, lo que supone una aceleración respecto de los algoritmos clásicos que requieren un tiempo exponencial.

Pero de todo esto surgen cuestiones fundamentales. Parece obvio que la realidad clásica emerge de la medida cuántica y, claramente, la información que emerge es sólo una parte muy reducida de la información que describe el sistema cuántico. Por tanto, una de las preguntas que surgen es: ¿Qué ocurre con la información que describe el sistema cuántico al realizar la medida? Pero por otra parte, al realizar la medida surge información a nivel clásico, por lo que debemos de preguntar: ¿Qué consecuencias tiene este comportamiento en la dinámica del universo clásico?

La entropía termodinámica

La imposibilidad de observar directamente el colapso de la función de onda ha dado lugar a varias interpretaciones de la mecánica cuántica, por lo que el problema de la medida cuántica sigue siendo un misterio sin resolver [7]. Sin embargo, podemos encontrar alguna clave si preguntamos qué significa la medida cuántica y cuál es su fundamento físico.

En este sentido hay que destacar que el proceso de medida cuántica está fundamentado en la interacción de sistemas cuánticos exclusivamente. El hecho de que generalmente la medida cuántica se asocie a escenarios de medida en un contexto experimental puede dar a la medida un carácter antrópico y, como consecuencia, a una percepción errónea de la verdadera naturaleza de la medida cuántica y de lo que se define como observable cuántico.

Por tanto, si la medida cuántica sólo involucra a sistemas cuánticos, la evolución de estos sistemas estará determinada por transformaciones unitarias, por lo que la entropía cuántica permanecerá constante a lo largo de todo el proceso. Pero por otra parte, esta interacción cuántica hace que emerja una información que constituye la realidad clásica y que en definitiva produce un incremento de la entropía clásica. En consecuencia, lo que se define como medida cuántica no sería más que la emergencia de información que constituye la realidad clásica.

Esta visión abstracta se pone claramente de manifiesto con casos prácticos. Así por ejemplo, de la interacción entre átomos que interaccionan entre sí emergen las propiedades observables y que determinan las propiedades del sistema que forman, como por ejemplo sus propiedades mecánicas. Sin embargo, el sistema cuántico formado por los átomos evoluciona de acuerdo a las leyes de la mecánica cuántica, manteniendo constante la cantidad información cuántica.

De forma análoga, la interacción entre un conjunto de átomos para formar una molécula está determinada por las leyes de la mecánica cuántica, y por tanto por trasformaciones unitarias, por lo que la complejidad del sistema se mantiene constante  a nivel cuántico. No obstante, a nivel clásico el sistema resultante es más complejo, emergiendo nuevas propiedades que constituyen las leyes de la química y de la biología.

La cuestión fundamental es que ocurre con la complejidad de los sistemas emergentes a nivel clásico. En el caso de los modelos físicos invariantes en el tiempo la complejidad del sistema permanece constante, lo cual es una excepción en los procesos termodinámicos, los cuales están presentes en todos los fenómenos físicos observables a nivel clásico. Pero lo que es verdaderamente paradójico es que la complejidad resultante no sólo no permanece constante sino que crece de forma sistemática.  

La pregunta que surge es cómo es posible que las ecuaciones a nivel microscópico, que son invariantes en el tiempo, puedan conducir a una asimetría temporal, tal como muestra la ecuación de Boltzmann de la de la difusión del calor.

Otra objeción a este comportamiento, y a una base puramente mecánica para la termodinámica, se debe a que todo sistema finito, por complejo que sea, debe recuperar su estado inicial periódicamente después del llamado tiempo de recurrencia, tal como demostró Poincaré [8]. Sin embargo, mediante un análisis puramente estadístico se demuestra que la probabilidad de que un sistema termodinámico complejo vuelva a su estado inicial es prácticamente nula, con tiempos de recurrencia muy superiores a la propia edad del universo.

Quizá lo más significativo y que pone claramente de manifiesto la irreversibilidad de los sistemas termodinámicos es la evolución de la entropía S, que determina la complejidad del sistema y cuya dinámica temporal es creciente, de tal forma que la derivada de S es siempre positiva Ṡ > 0. Pero lo que es más relevante es que este comportamiento se demuestra a partir de la descripción cuántica del sistema en lo que se conoce como “Pauli’s Master Equation” [9].

Esto demuestra que la realidad clásica  emerge de la realidad cuántica de forma natural, lo que sustenta la hipótesis planteada, de tal forma que la interacción entre sistemas cuánticos se traduce en lo que se denomina el colapso de la función de onda de dichos sistemas, emergiendo la realidad clásica.

Entropía termodinámica vs teoría de la información

El análisis de este comportamiento desde el punto de vista de la teoría de la información corrobora esta idea. El hecho de que la teoría cuántica sea reversible en el tiempo significa que la complejidad del sistema es un invariante. Dicho de otra forma, la cantidad de información que describe el sistema cuántico es constante en el tiempo. Sin embargo, la realidad clásica está sujeta a un incremento de la complejidad en el tiempo determinado por la evolución de la entropía termodinámica, lo que significa que la cantidad de información del sistema clásico es creciente con el tiempo.

Si suponemos que la realidad clásica es un sistema cerrado, esto plantea una contradicción ya que en un sistema de estas características la información no puede crecer con el tiempo. Así, en un sistema de computación reversible la cantidad de información permanece inalterada, mientras que en un sistema de computación no reversible, la cantidad de información disminuye a medida que progresa la ejecución. En consecuencia, la realidad clásica no puede considerarse un sistema aislado, por lo que el incremento de entropía debe ser producido por una realidad subyacente que inyecta información de forma sostenida.

En definitiva, este análisis es coherente con los resultados obtenidos a partir de la física cuántica, mediante la “Pauli’s Master Equation”, que demuestra que el crecimiento de la entropía de la realidad clásica se obtiene de su naturaleza cuántica.

Es importante destacar que la entropía termodinámica puede expresarse en función de la probabilidad de los microestados como  S = – k Σ(pi ln pi), donde k es la constante de Boltzmann y que coincide con la cantidad de información de un sistema, si se eligen las dimensiones físicas de tal forma que k = 1. Por tanto, parece claro que la entropía termodinámica representa la cantidad de información que emerge de la realidad cuántica.

Pero queda un problema por resolver consistente en entender el proceso físico por el cual la información cuántica emerge hacia la capa de realidad clásica1. Hay que tener en cuenta que el análisis para obtener la entropía clásica a partir del estado cuántico del sistema es puramente matemático y no proporciona criterios físicos sobre la naturaleza del proceso. Algo similar ocurre con el análisis del sistema desde el punto de vista de la mecánica estadística clásica [10], de donde se obtiene la entropía del sistema a partir de los microestados del sistema (coordenadas generalizadas qi y momento generalizado pi), por lo que tampoco proporciona criterios físicos para entender este comportamiento.

El universo inflacionario

La expansión del universo [11] es otra muestra de cómo la entropía del universo  está creciendo de forma sostenida desde sus inicios, lo que sugiere que el universo clásico es un sistema abierto. Pero, a diferencia de la termodinámica, en este caso la estructura física involucrada es el vacío.

Es importante destacar que históricamente los modelos físicos integran el vacío como una estructura puramente matemática de espacio-tiempo en la cual acontecen los fenómenos físicos, por lo que conceptualmente no es más que un sistema de referencia. Esto significa que en los modelos clásicos, el vacío o el espacio-tiempo no se  considera de forma explícita como una entidad física,  como ocurre con el resto de conceptos físicos.

El desarrollo de la teoría de la relatividad es el primer modelo en el cual se reconoce, al menos de forma implícita, que el vacío debe ser una estructura física compleja. Si bien sigue siendo tratado como un sistema de referencia, hay dos aspectos que ponen claramente de manifiesto esta complejidad: la interacción entre espacio-tiempo y el momento-energía, y su naturaleza  relativista.

Experimentos como el efecto Casimir [12] o el efecto Lamb ponen de manifiesto la complejidad del vacío, de tal forma que la mecánica cuántica atribuye al estado básico de la radiación electromagnética fluctuaciones de campo eléctrico de punto cero que impregnan el espacio vacío en todas las frecuencias. De forma similar el campo de Higgs sugiere que éste impregna todo el espacio, de tal forma que las partículas que interacciona con él adquieren masa. Pero en definitiva no existe un modelo que defina el espacio tiempo más allá de un simple sistema de referencia abstracto.

Sin embargo, parece obvio que el vacío debe ser una entidad física, ya que en su seno acontecen los fenómenos físicos y sobre todo que su dimensión y complejidad crece sistemáticamente. Esto significa que su entropía crece en función del tiempo, por lo que el sistema debe ser abierto, existiendo una fuente que inyecta información de forma sostenida. La teoría actual supone es la energía oscura la causante de la inflación [13], aunque su existencia y naturaleza es de momento una hipótesis.

Conclusiones

Del análisis anterior se deduce que el incremento de entropía de los sistemas clásicos emerge de la realidad cuántica, lo que produce un incremento sostenido de la información de la realidad clásica. Para ello se han utilizado diferentes puntos de vista, como son criterios termodinámicos clásicos y cuánticos, y criterios matemáticos como son la teoría de computación clásica y cuántica y la teoría de información.

Los resultados obtenidos por estos procedimientos son concordantes, lo que permite verificar la hipótesis de que la realidad clásica emerge de forma sostenida a partir de la interacción cuántica, proporcionando una visión de lo que se entiende por el colapso de la función de onda.

Lo que sigue siendo un misterio es como esto se produce, ya que si bien el aumento de entropía queda demostrado a partir del estado cuántico del sistema, este análisis no proporciona criterios físicos de cómo ocurre esto.

Evidentemente, esto debe estar producido por la interacción cuántica de las partículas involucradas, de tal forma que el colapso de su función de onda es una fuente de información a nivel clásico. No obstante, es necesario confirmar este comportamiento en diferentes escenarios ya que, por ejemplo, en un sistema en equilibrio no se produce un aumento de la entropía y si embargo sigue existiendo una interacción cuántica entre las partículas.

Otro factor que necesariamente debe intervenir en este comportamiento es el vacío, ya que el crecimiento de la entropía está también determinado por las variaciones de las dimensiones del sistema, lo cual se pone también de manifiesto en el caso del universo inflacionario. Sin embargo, al no disponerse de un modelo de vacío físico que describa su verdadera naturaleza dificulta el establecimiento de hipótesis que permita explicar la posible influencia de éste en el incremento sostenido de entropía.

En conclusión, el aumento de información producida por la expansión del universo es un hecho observable que no está todavía justificado por un modelo físico. Por el contrario, El incremento de información determinado por la entropía es un fenómeno que emerge de la realidad cuántica y que está justificado por el modelo de la física cuántica y que, como se ha planteado en este ensayo, sería producido por el colapso de la función de onda.

Apéndice

1 La irreversibilidad del sistema es obtenida a partir de la matriz de densidad cuántica:

  ρ(t)= ∑ i  pi |i〉〈i|

Siendo |i〉 los estados propios del Hamiltoniano ℌ0, de tal forma que el Hamiltoniano general es  ℌ=ℌ0+V, donde la perturbación V es la causa de las transiciones de estados. Así por ejemplo, en un gas ideal ℌ0 sería la energía cinética y V  la interacción como consecuencia de la colisión de los átomos del gas.

En consecuencia, “Pauli’s Master Equation” tiene en consideración la interacción de las partículas entre sí y su relación con el volumen que ocupan, pero de una forma abstracta. Así, la interacción de dos partículas tiene una naturaleza cuántica, intercambiando energía mediante bosones,  algo que en el desarrollo matemático queda oculto.

De forma análoga, las partículas del gas interaccionan con el vacío, siendo esta interacción fundamental, tal como se pone de manifiesto en la expansión del gas mostrada en la figura. Sin embargo, la naturaleza cuántica de esta interacción queda oculta en el modelo. Es más, tampoco es posible establecer como es esta interacción, más allá de su movimiento, al carecer de un modelo de vacío que permita este análisis.

Referencias

[1]R. Landauer, “Irreversibility and Heat Generation in Computing Process,” IBM J. Res. Dev., vol. 5, pp. 183-191, 1961.
[2]E. Fredkin y T. Toffoli, «Conservative logic,» International Journal of Theoretical Physics, vol. 21, p. 219–253, 1982.
[3]A. Einstein, B. Podolsky and N. Rose, “Can Quantum-Mechanical Description of Physical Reality be Considered Complete?,” Physical Review, vol. 47, pp. 777-780, 1935.
[4]J. S. Bell, «On the Einstein Podolsky Rosen Paradox,» Physics, vol. 1, nº 3, pp. 195-290, 1964.
[5]A. Aspect, P. Grangier and G. Roger, “Experimental Tests of Realistic Local Theories via Bell’s Theorem,” Phys. Rev. Lett., vol. 47, pp. 460-463, 1981.
[6]P. W. Shor, «Polynomial-Time Algorithms for Prime Factorization and Discrete Logarithms on a Quantum Computer,» arXiv:quant-ph/9508027v2, 1996.
[7]M. Schlosshauer, J. Kofler y A. Zeilinger, «A Snapshot of Foundational Attitudes Toward Quantum Mechanics,» arXiv:1301.1069v, 2013.
[8]H. Poincaré, «Sur le problème des trois corps et les équations de la dynamique,» Acta Math, vol. 13, pp. 1-270, 1890.
[9]F. Schwabl, Statistical Mechanics, pp. 491-494, Springer, 2006.
[10]F. W. Sears, An Introduction to Thermodynamics, The Kinetic Theory of Gases, and Statistical Mechanics, Addison-Wesley Publishing Company, 1953.
[11]A. H. Guth, The Inflationary Universe, Perseus, 1997.
[12]H. B. G. Casimir, «On the Attraction Between Two Perfectly Conducting Plates,» Indag. Math. , vol. 10, p. 261–263., 1948.
[13]P. J. E. Peebles y B. Ratra, «The cosmological constant and dark energy,» Reviews of Modern Physics, vol. 75, nº 2, p. 559–606, 2003.

La conciencia desde el punto de vista de la IA

El conocimiento que el ser humano tiene de sí mismo, que constituye el concepto de conciencia, ha sido y sigue siendo un enigma al que se enfrentan filósofos, antropólogos y neurocientíficos. Pero quizá, lo más sugerente es el hecho de que la conciencia es un concepto central en el comportamiento humano y que siendo consciente de ello no encuentre una explicación para ella.

Sin entrar en detalles, hasta le edad moderna el concepto de conciencia tenía unas raíces profundas en el concepto de alma y de creencias religiosas, atribuyendo con frecuencia a la intervención divina en la diferenciación de la naturaleza humana de otras especies.

En la edad moderna se produce un cambio sustancial basado en el concepto del “yo” de Descartes (cogito ergo sum) y posteriormente en el modelo propuesto por Kant y que se estructura alrededor de lo que se conoce como “argumentos trascendentales” [1].  

Con posterioridad, se han desarrollado una variedad de corrientes de pensamiento, entre las que destacan las teorías dualistas, monistas, materialistas y neurocognitivas. En términos generales, estas teorías se focalizan en los aspectos sicológicos y fenomenológicos que describen la realidad consciente. En el caso de las teorías neurocognitivas la evidencia neurológica es un pilar fundamental. Pero en definitiva, todas estas teorías son de naturaleza abstracta y, de momento, no han logrado dar una justificación formal de la conciencia y a como un “ente” puede desarrollar un comportamiento consciente, así como a conceptos tales como la moral o la ética.

Un aspecto al que se enfrentan estos modelos y que ponen en cuestión el concepto del “cogito” es el cambio de conducta producido por daños cerebrales y que en algunos casos puede llegar a ser reeducada, lo que muestra que el cerebro y los procesos de aprendizaje juegan un papel fundamental en la conciencia.

En este sentido, los avances en Inteligencia Artificial (AI) [2] ponen de manifiesto los fundamentos formales del aprendizaje, mediante los cuales un algoritmo puede adquirir conocimiento y en el que las redes neuronales son actualmente un componente fundamental. Por esta razón, la utilización de estos nuevos conocimientos puede proyectar luz sobre la naturaleza de la conciencia.

El paradigma del Test de Turing

Para analizar cual pueden ser los mecanismos que sustentan la conciencia podemos comenzar por el Test de Turing [3], en el que una máquina se pone a prueba para comprobar si ésta muestra un comportamiento similar al de un ser humano.

Sin entrar en la definición del Test de Turing, podemos asimilar este concepto al de un chatbot, tal como muestra la figura 1, lo que nos puede proporcionar una idea intuitiva de este concepto. Pero podemos ir todavía más lejos si nos planteamos su implementación. Para ello se requiere disponer de una ingente cantidad de diálogos entre humanos, que nos permita entrenar el modelo mediante técnicas de Deep Learning [4]. Y aunque pueda parecer extraño, la disponibilidad de diálogos es la parte más laboriosa del proceso.

Figura 1.-Esquema del Test de Turing

Una vez entrenado el chatbot podemos preguntar su comportamiento desde un punto de vista psicofísico. La respuesta parece bastante evidente, ya que aunque éste pueda mostrar un comportamiento muy complejo éste será siempre un comportamiento reflejo, a pesar de que su interlocutor pueda deducir que su interlocutor tenga sentimientos e incluso un comportamiento inteligente. Esto último es un tema controvertido por la dificultad de definir lo que supone un comportamiento inteligente y que se pone de manifiesto con las preguntas: ¿Inteligente? ¿Comparado con qué?

Pero el Test de Turing sólo tiene como objetivo determinar la capacidad de una máquina para mostrar un comportamiento similar al del ser humano, sin entrar en el análisis de los mecanismos para establecer esta funcionalidad.

En el caso del ser humano, estos mecanismos pueden clasificarse en dos apartados: aprendizaje genético y aprendizaje neuronal.

El aprendizaje genético

El aprendizaje genético se basa en la capacidad de aprendizaje de la biología para establecer funciones adaptadas al procesado de la realidad circundante. Expresado de esta manera no parece un argumento obvio ni convincente, pero la computación basada en el ADN (DNA computing) [5] es una demostración formal de la capacidad de aprendizaje biológico. La evolución de las capacidades adquiridas mediante este proceso se basa en una estrategia de prueba y error, algo que es inherente al aprendizaje, por lo que la evolución biológica es un proceso lento, tal como muestra la naturaleza.

Las reacciones instintivas están fundamentadas en el aprendizaje genético, de tal forma que todas las especies de seres vivos están dotadas de ciertas facultades sin necesidad de un entrenamiento posterior significativo. Como ejemplos de ello se puede mencionar el instinto de supervivencia, el de reproducción, el maternal y paternal. Estas funciones están localizadas en las capas interiores del cerebro y que los humanos comparten con los vertebrados.

No vamos a entrar en detalles relativos a la neurociencia [6], ya que lo único que nos interesa en este análisis es destacar dos aspectos fundamentales: la especialización funcional y la plasticidad de cada una de sus estructuras neuronales. Así, la estructura, plasticidad y especialización está determinada por factores genéticos, de tal forma que las capas internas, como por ejemplo el sistema límbico, tienen una funcionalidad muy especializada y requieren poco entrenamiento para ser funcionales. Por el contrario, las estructuras externas, localizadas en el neocórtex, son muy plásticas y su funcionalidad está muy marcada por el aprendizaje y la experiencia.

Por tanto, el aprendizaje genético es el responsable de la estructura, plasticidad y especialización, mientras que el aprendizaje neuronal está íntimamente ligado a la funcionalidad plática del tejido neuronal.

Un claro ejemplo de la especialización funcional basada en el aprendizaje genético es el procesado del espacio-tiempo que compartimos con el resto de seres vivos superiores y que está localizado en el sistema límbico. Esto dota al cerebro de estructuras dedicadas al establecimiento de un mapa espacial y al tratamiento del retardo temporal, lo que proporciona la capacidad de establecer trayectorias de forma anticipada, vitales para la supervivencia y para interaccionar con la realidad espacio-temporal.

Esta funcionalidad tiene un alto grado de automatismo, lo que hace que su capacidad funcional sea efectiva desde el mismo momento del nacimiento. Sin embargo, esto no es exactamente así en los humanos, ya que estos sistemas neuronales funcionan de forma coordinada con el neocórtex, el cual requiere un alto grado de entrenamiento neuronal.

Así, por ejemplo, esta especialización funcional impide visualizar y comprender de forma intuitiva geometrías de más de tres dimensiones espaciales, algo que los humanos sólo podemos tratar de forma abstracta a un nivel superior mediante el neocórtex, que tiene una funcionalidad plástica y que es el soporte principal del aprendizaje neuronal.

Es interesante considerar que la funcionalidad del neocórtex, cuyo tiempo de respuesta es mayor que el de las capas inferiores, puede interferir en la reacción de las funciones automáticas. Esto se pone claramente de manifiesto en la pérdida de concentración en actividades que requieren un alto grado de automatismo, como ocurre en ciertas actividades deportivas. Esto hace que además de tener una capacidad física apropiada y una capacidad de procesado automática bien desarrollada y entrenada, los deportistas de élite requieran una preparación psicológica específica.

Esto es aplicable a todos los sistemas sensoriales, como la visión, audición, equilibrio, en los que el aprendizaje genético determina y condiciona la interpretación de la información procedente de los óranos sensoriales. Pero a medida que esta información asciende a las capas superiores de cerebro, el procesado e interpretación de la información está determinado por el aprendizaje neuronal.

Esto es lo que diferencia a los humanos del resto de las especies, al estar dotados de un neocórtex muy desarrollado, lo que proporciona una capacidad de aprendizaje neuronal muy significativo, de donde parece emerger el ser consciente.

No obstante, hay evidencias sólidas de la capacidad de sentir y de tener un cierto nivel de conciencia en algunas especies. Esto es lo que ha desencadenado un movimiento para el reconocimiento legal de sentimientos en ciertas especies de animales, e incluso reconocer el status de persona para algunas especies de homínidos.

El aprendizaje neuronal: La IA como una fuente de intuición

En la actualidad, la IA está constituida por un conjunto de estrategias matemáticas que se agrupan bajo diferentes denominaciones en función de sus características. Así, el Aprendizaje Automático (Machine Learning, ML) está formado por algoritmos matemáticos clásicos, de tipo estadístico, árboles de decisión, clustering, support vector machine, etc. Por el contrario, el aprendizaje profundo (Deep Learning) se inspira en el funcionamiento del tejido neuronal, y exhibe un comportamiento complejo que se aproxima a ciertas capacidades de los humanos.

En el estado actual de desarrollo de esta disciplina, los diseños se reducen a la implementación y el entrenamiento de tareas específicas, como son los sistemas de diagnóstico automático, asistentes, chatbots, juegos, etc, por lo que estos sistemas se agrupan en lo que se denomina Artificial Narrow Intelligence.

La perspectiva que ofrecen estos nuevos conocimientos permite establecer tres grandes categorías dentro de la IA:

  • Artificial Narrow Intelligence.
  • Artificial General Intelligence. Sistemas de IA con una capacidad similar a la del ser humano.
  • Artificial Super Intelligence: Sistemas de IA autoconscientes con una capacidad igual o superior a la del ser humano.  

La implementación de redes neuronales utilizadas en Deep Learning se inspira en la funcionalidad de las neuronas y del tejido neuronal, tal como muestra la figura 2 [7]. Como consecuencia, los estímulos nerviosos procedentes de los terminales de los axones que se conectan a las dendritas (sinapsis) son ponderados y procesados en función de la configuración funcional de la neurona adquirida mediante aprendizaje, produciendo un estímulo nervioso que se propaga a otras neuronas, a través de los axones terminales.

Figura 2. Estructura de una neurona y modelo matemático

Las redes neuronales artificiales se estructuran creando capas del modelo matemático de neurona, tal como muestra la figura 3. Una cuestión fundamental de este modelo es determinar los mecanismos necesarios para establecer los parámetros de ponderación Wi en cada una de las unidades que forman la red neuronal. Para ello podría utilizarse los mecanismos neuronales. Sin embargo, aunque existe una idea muy general de cómo se configura la funcionalidad de las sinapsis, el establecimiento de la funcionalidad a nivel de la red neuronal es todavía un misterio.

Figura 3. Arquitectura de una red neuronal artificial

En el caso de las redes neuronales artificiales, la matemática ha encontrado una solución que permite establecer los valores Wi, mediante lo que se conoce como aprendizaje supervisado. Para ello se requiere disponer de un dataset en el que cada uno de sus elementos represente un estímulo X i  y la respuesta a dicho estímulo Y i. De esta forma, una vez inicializados de forma aleatoria los valores Wi se procede a la fase de entrenamiento, presentando cada uno de los estímulos X i  y comparando la respuesta con los valores Y i. Los errores producidos se propagan hacia atrás mediante un algoritmo conocido como backpropagation.

Mediante la aplicación secuencial de los elementos de un conjunto de entrenamiento (training set) perteneciente al dataset en varias sesiones se alcanza un estado de convergencia, en el que la red neuronal logra un grado de precisión apropiada, comprobado mediante un conjunto de elementos de validación (validation set), perteneciente al dataset que no son utilizados para el entrenamiento.

Un ejemplo es mucho más intuitivo para entender la naturaleza de los elementos de un dataset. Así, en un dataset utilizado en el entrenamiento de sistemas autónomos de conducción, X i corresponden a imágenes  en las cuales aparecen patrones de diferentes tipos de vehículos, peatones, vías públicas, etc. Cada una de estas imágenes tiene asociada una categoría Y i, en la que se especifica los patrones que aparecen en dicha imagen. Hay que destacar que en el estado actual de desarrollo de los sistemas de IA, la confección del dataset es realizada por los humanos, por lo que el aprendizaje es de tipo supervisado y requiere unos recursos muy significativos.

En el aprendizaje no supervisado la categoría Y i es generada de forma automática, aunque su estado de desarrollo es muy incipiente. Un ejemplo muy ilustrativo es el programa Alpha Zero desarrollado por DeepMind [8], de tal forma que el aprendizaje se realiza proporcionándole las reglas de juego (ajedrez, go, shogi) y desarrollando contra sí mismo partidas, de tal forma que los movimientos y el resultado configuran (X i , Y i). La red neuronal se actualiza continuamente con estos resultados, mejorando de forma secuencial su comportamiento y por tanto los nuevos resultados (X i , Y i), alcanzando un nivel de juego sobrehumano.

Es importante observar que en el caso de los seres vivos superiores el aprendizaje no supervisado se realiza mediante la interacción del sistema neuronal aferente (sensorial) y del sistema neuronal eferente (motor). Aunque desde un punto de vista funcional no hay diferencias sustanciales, esta interacción se realiza en dos niveles, tal como muestra la figura 4:

  • La interacción con el entorno inanimado.
  • La interacción con otros seres vivos, especialmente de la misma especie.

El primer nivel de interacción proporciona un conocimiento sobre la realidad física. Por el contrario, el segundo nivel de interacción permite establecer hábitos de supervivencia y sobre todo hábitos sociales. En el caso de los humanos este nivel adquiere una gran importancia y complejidad, ya que de él emergen conceptos como moral y ética, así como la capacidad de acumular y  transmitir conocimiento de generación en generación.

Figura 4. Estructura del aprendizaje no supervisado

En consecuencia, el aprendizaje no supervisado se fundamenta en la recursividad de los sistemas aferentes y eferentes. Esto significa que a diferencia de los modelos utilizados en aprendizaje profundo (Deep  Learning), que son unidireccionales, los sistemas de IA no supervisados requieren la implementación de dos sistemas independientes. Un sistema aferente que produzca una respuesta a partir de un estímulo y un sistema eferente que a partir de la respuesta corrija mediante una técnica de reforzamiento el comportamiento del sistema aferente.

¿Cuál es el fundamento de la Conciencia?

Del desarrollo de la IA se deducen dos aspectos fundamentales:

  • La capacidad de aprendizaje de los algoritmos.
  • La necesidad de estructuras aferentes y eferentes para soportar el aprendizaje no supervisado.

Por otra parte, es sabido que los procesos traumáticos en el cerebro o las patologías asociadas al envejecimiento pueden producir cambios en la personalidad y en la percepción consciente.  Esto indica claramente que estas funciones están localizadas en el cerebro y soportadas por el tejido neuronal.

Pero hay que apoyarse en la antropología para tener una idea más precisa de cuáles son los fundamentos de la conciencia y de cómo está se ha desarrollado en los seres humanos. Así, se puede observar una correlación directa entre la capacidad craneal de una especie de homínido y sus habilidades, organización social, espiritualidad y, sobre todo, en la percepción abstracta del mundo circundante. Esta correlación está claramente determinada por el tamaño del neocórtex y puede observarse en menor medida otras especies, tales como los primates, mostrando una capacidad de dolor emocional, una organización social estructurada y cierta facultad de aprendizaje abstracto.

De acuerdo a todo lo anterior, se podría concluir que la conciencia emerge de la capacidad de aprendizaje del tejido neuronal y se alcanzaría a medida que la complejidad estructural y los recursos funcionales del cerebro adquieren un nivel apropiado de desarrollo. Pero esto conduce directamente al escenario propuesto por el Test de Turing, de tal forma que se obtendría un sistema con un comportamiento complejo indistinguible de un humano, lo cual no aporta ninguna prueba sobre la existencia de la conciencia.  

Para entender esto, podemos preguntar cómo un humano llega a la conclusión de que el resto de los humanos tienen conciencia. En realidad, no tiene ningún argumento para llegar a esta conclusión, ya que como mucho podría comprobar que verifican el test de Turing. El humano llega a la conclusión de que otros humanos tienen conciencia por semejanza consigo mismo. Mediante introspección, un humano tiene conciencia de sí mismo y puesto que el resto de los humanos son semejantes a él concluye que el resto de los humanos tienen conciencia.

Por tanto, llegaríamos a la conclusión de que la conciencia es consecuencia de un hecho sobrenatural, lo cual requiere la intervención de una causalidad ajena a la realidad y que plantea varias inconsistencias. En primer lugar, la conciencia de un humano es temporal y no es adquirida súbitamente. Al nacer, el humano es un ser inmaduro cuyo cerebro debe concluir un proceso de crecimiento y que en paralelo va aprendiendo funciones básicas para interaccionar con el entorno. En este contexto, en los primeros años de vida va adquiriendo la conciencia de forma progresiva hasta que es capaz de preguntarse quién es y el porqué. Otra inconsistencia es el hecho de que existan o hayan existido especies conscientes, mientras que el resto no tengan esta capacidad.

En definitiva, la única respuesta que se puede dar a cual es el fundamento de la conciencia es el mecanismo de introspección del propio cerebro. En el esquema de aprendizaje no supervisado se han puesto de manifiesto los mecanismos aferentes y eferentes que permiten al cerebro relacionarse con el mundo exterior a través de los órganos sensoriales y motores. Sin embargo, a este modelo hay que añadir otro flujo de información, tal como se muestra en la figura 5, que potencia el aprendizaje y que corresponde a la interconexión de estructuras neuronales del cerebro y que de forma recursiva establecen los mecanismos del razonamiento, la imaginación y porqué no de la conciencia.

Figura 5. Mecanismo de razonamiento e imaginación.

Esta afirmación puede parecer radical, pero si meditamos sobre ello veremos que la única diferencia entre la imaginación y la conciencia es que la capacidad de los humanos de identificarse a sí mismos plantea preguntas existenciales de difícil respuesta, pero que desde el punto de vista del tratamiento de la información requieren los mismos recursos que el razonamiento o la imaginación.

¿Pero cómo esta hipótesis puede ser demostrada? Una posible solución sería construir un sistema basado en tecnologías del aprendizaje que nos confirmara la hipótesis. ¿Pero, se aceptaría esta confirmación como cierta?, o simplemente se decidiría que el sistema verifica el Test de Turing.

[1]Stanford Encyclopedia of Philosophy, «Kant’s View of the Mind and Consciousness of Self,» 8 Oct 2020. [En línea]. Available: https://plato.stanford.edu/entries/kant-mind/. [Último acceso: 6 Jun 2021].
[2]S. J. Russell y P. Norvig, Artificial Intelligence: A Modern Approach, Pearson, 2021.
[3]A. Turing, «Computing Machinery and Intelligence,» Mind, vol. LIX, nº 236, p. 433–60, 1950.
[4]C. C. Aggarwal, Neural Networks and Deep Learning, Springer, 2018.
[5]L. M. Adleman, «Molecular computation of solutions to combinatorial problems,» Science, vol. 266, nº 5187, pp. 1021-1024, 1994.
[6]E. R. Kandel, J. D. Koester, S. H. Mack y S. A. Siegelbaum, Principles of Neural Science, Macgraw Hill, 2021.
[7]F. Rosenblatt, «The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain,» Psychological Review, vol. 65, nº 6, pp. 386-408, 1958.
[8]D. Silver, T. Hubert y J. Schrittwieser, «DeepMind,» [En línea]. Available: https://deepmind.com/blog/article/alphazero-shedding-new-light-grand-games-chess-shogi-and-go. [Último acceso: 6 Jun 2021].

La irrazonable eficacia de las matemáticas

En el post “Cuál es la naturaleza de la matemática” se ha expuesto el dilema de si la matemática es descubierta o inventada por los humanos, sin que de momento se haya llegado a aportar pruebas convincentes en ninguno de los dos sentidos.

Una forma más profunda de abordar el tema es tal como lo planteó Eugene P. Wigner [1], preguntándose por la irrazonable eficacia de las matemáticas en las ciencias naturales.

Según Roger Penrose esto plantea tres misterios [2] [3], identificando tres «mundos» distintos: el mundo de nuestra percepción consciente, el mundo físico y el mundo platónico de las formas matemáticas. De esta forma:

  • El mundo de la realidad física parece obedecer leyes que en realidad residen en el mundo de las formas matemáticas.
  • Las propias mentes que perciben —el reino de nuestra percepción consciente— se las han arreglado para surgir del mundo físico.
  • Esas mismas mentes han sido capaces de acceder al mundo matemático al descubrir, o crear, y dar articulación a un capital de formas y conceptos matemáticos.

La eficacia de la matemática presenta dos aspectos diferentes. Uno activo en el que los físicos desarrollan modelos matemáticos que permiten describir de forma precisa el comportamiento de los fenómenos físicos, pero también hacer predicciones sobre ellos, lo cual es un hecho sorprendente.

Aunque más extraordinario aun es el aspecto pasivo de la matemática, de tal forma que los conceptos que los matemáticos exploran de forma abstracta acaban siendo las soluciones de problemas firmemente enraizados en la realidad física.

Pero esta visión de la matemática tiene detractores especialmente fuera del campo de la física, en áreas en las que las matemáticas no parecen tener este comportamiento. Así, el neurobiólogo Jean-Pierre Changeux señala [4]: «Afirmar la realidad física de los objetos matemáticos en el mismo nivel que los fenómenos naturales que se estudian en biología plantea, en mi opinión, un considerable problema epistemológico. ¿Cómo puede un estado físico interno de nuestro cerebro representar otro estado físico externo a él?»

Obviamente, parece que analizar el problema utilizando casos de estudio de diferentes áreas de conocimiento no permite establecer argumentos formales para llegar a una conclusión sobre la naturaleza de la matemática. Por esta razón, se deben buscar un método abstracto que permita superar estas dificultades. En este sentido, la Teoría de la Información (IT) [5], la Teoría de la Información Algorítmica (AIT) [6] y la Teoría de la Computación (TC) [7] pueden ser herramientas de análisis que ayuden a resolver el problema.

¿Qué entendemos por matemáticas?

La pregunta puede parecer obvia, pero las matemáticas están estructuradas en múltiples áreas: algebra, lógica, cálculo, etc., y lo cierto es que cuando nos referimos al éxito de la matemática en el campo de la física subyace la idea de las teorías físicas apoyadas en modelos matemáticos: física cuántica, electromagnetismo, relatividad general, etc.

Sin embargo, cuando estos modelos matemáticos se tratan de aplicar en otras áreas no parecen tener la misma eficacia, por ejemplo en la biología, la sociología o las finanzas, lo que parece contradecir la experiencia en el campo de la física.

Por esta razón, una cuestión fundamental es analizar cómo funcionan estos modelos y cuáles son las causas que dificultan su aplicación fuera del ámbito de la física. Para ello, imaginemos cualquiera de los modelos de éxito de la física, como son la teoría de la gravitación, el electromagnetismo, la cuántica o la relatividad general. Estos modelos se basan en un conjunto de ecuaciones definidas en lenguaje matemático, que determinan las leyes que controlan el fenómeno descrito, las cuales admiten soluciones analíticas que describen la dinámica del sistema. Así por ejemplo, un cuerpo sometido a una fuerza de atracción central describe una trayectoria definida por una cónica.

Esta funcionalidad es una herramienta de análisis potente, ya que permite analizar los sistemas en condiciones hipotéticas y llegar a conclusiones que pueden ser posteriormente verificadas experimentalmente. ¡Pero cuidado! Este escenario de éxito enmascara una realidad que frecuentemente pasa desapercibida, ya que generalmente los escenarios en los que el modelo admite una solución analítica son muy limitados. Así, el modelo gravitatorio no admite solución analítica cuando el número de cuerpos es n>=3 [8], salvo el casos muy concretos como son los denominados puntos de Lagrange. Es más, el sistema tiene un comportamiento muy sensible a las condiciones iniciales, de tal forma que pequeñas variaciones en dichas condiciones pueden producir grandes desviaciones a largo plazo.

Esta es una característica fundamental de los sistemas no lineales y, aunque el sistema esté regido por unas leyes deterministas, su comportamiento es caótico. Sin entrar en detalles que se escapan de este análisis, este es el comportamiento general del cosmos y de todo lo que acontece en él.

Hay un caso que puede considerarse extraordinario es el modelo cuántico que, de acuerdo a la ecuación de Schrödinger o al modelo matricial de Heisenberg, es un modelo lineal y reversible. No obstante, la información que emerge de la realidad cuántica es de naturaleza estocástica.   

En definitiva, los modelos que describen la realidad física sólo tienen una solución analítica en casos muy particulares. Para escenarios complejos, se pueden obtener soluciones particulares al problema mediante series numéricas, pero la solución general de cualquier proposición matemática se obtiene mediante la Máquina de Turing (TM) [9].

Este modelo puede ser representado de forma abstracta mediante la concatenación de tres objetos matemáticosxyz〉 (secuencias de bits) que ejecutados en una máquina de Turing TM(〈xyz〉), determinan la solución. Así, por ejemplo, en el caso del electromagnetismo, el objeto z corresponderá a la descripción de las condiciones de contorno del sistema, y a la definición de las ecuaciones de Maxwell y x a la definición formal del cálculo matemático. TM es la máquina de Turing definida por un conjunto finito de estados. Por tanto, el problema se reduce al tratamiento de un conjunto de bits〈xyz〉de acuerdo a unas reglas axiomáticas definidas en TM, y que en el caso óptimo se puede reducir a una máquina con tres estados (más el estado de HALT) y dos símbolos (bit).

La naturaleza como una máquina de Turing

Y aquí volvemos al punto de partida. ¿Cómo es posible que la realidad pueda ser representada por un conjunto de bits y por un reducido número de reglas axiomáticas?

Con anterioridad al desarrollo de la IT, el concepto de información no tenía un sentido formal, tal como pone de manifiesto su definición clásica en los diccionarios. De hecho, hasta que las tecnologías de la comunicación no comenzaron a desarrollarse, palabras como “enviar” se referían exclusivamente a objetos materiales.

Sin embargo, todo lo que ocurre en el universo es interacción y transferencia, y en el caso de los humanos el medio más elaborado para esta interacción es el lenguaje natural y que consideramos el hito más importante en que se apoya el desarrollo cultural. Es quizá por esta razón que en el debate sobre si la matemática es inventada o descubierta se utilice el lenguaje natural como argumento.

Pero la TC muestra que el lenguaje natural no es formal, al no estar definido sobre bases axiomáticas, por lo que los argumentos basados en él pueden ser de dudosa validez. Y es aquí donde la IT y la TC proporcionan una visión amplia sobre el problema planteado.

En un sistema físico cada una de las partículas componentes tiene unas propiedades físicas y un estado, de tal forma que cuando interacciona con el entorno modifica su estado en función de sus propiedades, de su estado y de la interacción física exterior. Este proceso de interacción es recíproco y como consecuencia del conjunto de interacciones el sistema desarrolla una dinámica temporal.

Así, por ejemplo, la dinámica de una partícula está determinada por la curvatura del espacio-tiempo que indica a la partícula como debe moverse y esta a s vez interacciona con el espacio-tiempo, modificando su curvatura.

En resumen, un sistema tiene una descripción que está distribuida en cada una de las partes que componen el sistema. De esta forma, el sistema podría ser descrito de varias maneras diferentes:

  • Como un conjunto de TMs interaccionando entre sí. 
  • Como una TM que describe el sistema total.
  • Como una TM que describa parcialmente el comportamiento global, mostrando propiedades emergentes del sistema.

La conclusión fundamental es que el sistema es una máquina de Turing. Por tanto, la cuestión no es si la matemática es descubierta o inventada o preguntarnos cómo es posible que la matemática sea tan eficaz describiendo el sistema. La cuestión es cómo es posible que un ente inteligente – natural o artificial- llegue a esta conclusión e incluso sea capaz de deducir las leyes axiomáticas que controlan el sistema.

La justificación se debe fundamentar en que la naturaleza es la que impone la funcionalidad y no los entes inteligentes que forman parte de la naturaleza. La naturaleza es capaz de desarrollar cualquier funcionalidad computable, por lo que entre otras funcionalidades, el aprendizaje y el reconocimiento de patrones de comportamiento es una funcionalidad básica de la naturaleza. De esta forma, la naturaleza desarrolla una dinámica compleja de la que surge el comportamiento físico, la biología, los seres vivos, y los entes inteligentes.

Como consecuencia, la naturaleza ha creado estructuras que son capaces de identificar sus propios patrones de comportamiento, tales como leyes físicas, y en última instancia identificar la naturaleza como una Máquina de Turing Universal (UTM). Esto es lo que hace que la interacción física sea consistente a todos los niveles. Así, en el caso expuesto de la capacidad de los seres vivos para establecer un mapa espacio-temporal, esto les permite interactuar con el entorno, de lo contrario su existencia no sería posible. Obviamente este mapa corresponde a un espacio Euclideo, pero si el ser vivo en cuestión fuera capaz de moverse a velocidades próximas a la luz, el mapa aprendido correspondería al descrito por la relatividad.

Una visión más allá de la física

Si bien la TC, la IT y la AIT son el soporte teórico que nos permiten sustentar esta visión de la naturaleza, los avances en la tecnología de computación y en la AI son una fuente de inspiración, mostrando como la realidad puede ser descrita como una secuencia estructurada de bits. Esto a su vez permite realizar funciones tales como extracción y reconocimiento de patrones, determinación de su complejidad y aprendizaje automático.

A pesar de esto, quedan preguntas fundamentales por contestar, en particular que ocurre con aquellos casos en los que la matemática no parecer tener el mismo existo que en el caso de la física, como puede ser el caso de la biología, la economía o de la sociología. 

Muchos de los argumentos utilizados en contra de la visión anterior se fundamentan en el hecho de que la descripción de la realidad en términos matemáticos, o mejor dicho, en términos de conceptos computacionales no parece encajar, o al menos de forma precisa, en áreas de conocimiento más allá de la física. Sin embargo, es necesario reconocer que se han producido avances muy significativos en áreas como la biología y la economía.

Así, los conocimientos sobre biología muestran que la química de la vida está estructurada en varios lenguajes superpuestos:

  • El lenguaje de los ácidos nucleicos, constituido por un alfabeto de 4 símbolos y que codifica la estructura del ADN y del ARN.
  • El lenguaje de los amino ácidos, constituido por un alfabeto de 64 símbolos y que codifica las proteínas. El proceso de transcripción para la síntesis de proteínas se realiza mediante una concordancia entre ambos lenguajes.
  • El lenguaje de las regiones intergénicas del genoma. Su funcionalidad está todavía por aclarar, pero todo parece indicar que son responsables del control de la producción de proteínas en diferentes partes del cuerpo, mediante la activación de interruptores moleculares.  

Por otra parte, la predicción de la estructura de proteínas mediante técnicas de aprendizaje profundo es una muestra sólida que asocia la biología a la TC [10]. Destacar también que la biología como un proceso de información debe verificar las leyes de la lógica, en particular el teorema de recursión  [11], por lo que la replicación del ADN debe realizar al menos en dos fases por procesos independientes.

En el caso de la economía se han producido avances relevantes a partir de la década de los 80 del siglo XX, con el desarrollo de la finanzas computacionales [12]. Pero como un ejemplo paradigmático nos centraremos en los mercados financieros que nos debe servir para comprobar en un entorno muy alejado de la física la hipótesis de que la naturaleza tiene el comportamiento de una máquina de Turing. 

Básicamente, los mercados financieros son un espacio que puede ser físico o virtual, a través del cual se intercambian activos financieros entre agentes económicos y en el que se definen los precios de dichos activos.

Un mercado financiero está regido por la ley de la oferta y la demanda. Es decir, cuando un agente económico quiere algo a un precio determinado, solo lo podrá comprar a ese precio si hay otro agente dispuesto a venderle ese algo a dicho precio.

Tradicionalmente, los agentes económicos eran personas pero, con el desarrollo de aplicaciones informáticos complejas, actualmente estas aplicaciones actúan también como agentes económicos, de forma supervisada y no supervisada, dado origen a diferentes tipos de estrategias de inversión.

Este sistema puede ser modelado por una máquina de Turing que emula todos los agentes económicos involucrados, o como un  conjunto de máquinas de Turing interaccionando entre sí, cada una de las cuales emula un agente económico.

La definición de este modelo requiere implementar las reglas axiomáticas del mercado, así como la funcionalidad de cada uno de los agentes económicos, que permitan determinar los precios de compra o venta a los que estén dispuestos a negociar. Aquí es donde radica el problema, ya que esto depende de factores muy diversos y complejos, como son la disposición de información sobre los valores negociados, la sicología del agente y otros muchos factores como son los contingentes o las estrategias especulativas.

En resumen, esto hace que la emulación del sistema sea imposible en la práctica. No obstante, hay que señalar que los corredores de bolsa y las aplicaciones automáticas pueden obtener una ventaja competitiva mediante la identificación de patrones globales, o incluso mediante la utilización de información privilegiada, aunque esta práctica está penada por ley en mercados convenientemente regulados.

La cuestión que se puede plantear es si esta imposibilidad de emulación precisa invalida la hipótesis planteada. Si volvemos al caso de estudio de la gravitación Newtoniana, determinada por la fuerza atractiva central, se puede observar que, aunque funcionalmente es diferente, comparte una característica fundamental que imposibilita en la práctica la emulación del sistema y que está presente en todos los escenarios.  

Si pretendemos emular el caso del sistema solar deberemos determinar la posición, velocidad y el momento angular de todos los cuerpos celestes involucrados, sol, planetas, planetas enanos, planetoides, satélites, así como el resto de cuerpos situados en el sistema, tales como el cinturón de asteroides, el cinturón de Kuiper y la nube de Oort, así como la masa y energía dispersa. Adicionalmente, se debe determinar la forma y estructura de los cuerpos, sólidos, líquidos y gaseosos. También habrá que considerar los efectos de las colisiones que modifican la estructura de los cuerpos resultantes. Finalmente habrá que considerar la actividad fisicoquímica, tales como fenómenos geológicos, biológicos, radiación, ya que modifican la estructura y dinámica de los cuerpos y están sujetos a fenómenos cuánticos, lo que supone otra fuente de incertidumbre.  Y aun así el modelo no es adecuado, ya que es necesario aplicar un modelo relativista.

Esto hace que la emulación precisa sea imposible en la práctica, tal como demuestran las continuas correcciones en las efemérides de los satélites GPS, o los ajustes de las trayectorias de los viajes espaciales, donde el viaje a Plutón realizado por la nave New Horizons de la NASA es un caso paradigmático.

Conclusiones

Del análisis anterior se puede plantea la hipótesis de que el universo es un sistema axiomático regido por unas leyes que determina una dinámica que es consecuencia de la interacción y transferencia de las entidades que la componen.

Como consecuencia de los fenómenos de interacción y transferencia, el propio sistema puede emular de forma parcial y aproximada su comportamiento, lo que da origen a procesos de aprendizaje y que finalmente da origen a la vida y la inteligencia. Esto hace posible que los seres vivos interaccionen de forma compleja con en medio ambiente y que entes inteligentes puedan observar la realidad y establecer modelos de dicha realidad.

De esta forma surgen las representaciones abstractas como son el lenguaje natural y las matemáticas. Con el desarrollo de la IT [5] se concluye que todos los objetos pueden ser representados por un conjunto de bits, que pueden ser procesados mediante reglas axiomáticas [7] y que codificados de forma óptima determinan la complejidad del objeto, definida como complejidad de Kolmogorov [6].

El desarrollo de la TC establece que estos modelos pueden ser definidos como una TM, por lo que en el límite puede plantearse la hipótesis de que el universo es equivalente a una máquina de Turing y que los límites de la realidad pueden ir más allá del propio universo, en lo que se define como multiverso y que sería equivalente a una UTM. Esta concordancia entre un universo y una TM  permite plantear la hipótesis de que el universo no es más que información procesada por reglas axiomáticas.  

Por tanto, de la observación de los fenómenos naturales se pueden extraer las leyes de comportamiento que constituyen los modelos abstractos (axiomas), así como la información necesaria para describir los casos de realidad (información). Puesto que esta representación re realiza sobre una realidad física, su representación será siempre aproximada, de tal forma que sólo el universo podrá emularse a sí mismo. Puesto que el universo es consistente, los modelos no hacen más que corroborar este hecho. Pero recíprocamente, la equivalencia entre el universo y una TM implica que las deducciones realizadas a partir de modelos consistentes deben ser satisfechas por la realidad.

No obstante, todo parece indicar que esta forma de percibir la realidad está distorsionada por los sentidos, ya que a nivel de la realidad clásica lo que observamos son las consecuencias de los procesos que acontecen en este nivel funcional, apareciendo los conceptos tales como masa, energía, inercia.

Pero cuando se indaga en las capas que sustentan la realidad clásica esta percepción desaparece, ya que nuestros sentidos no tienen la capacidad directa para su observación, de tal forma que lo que emerge no es más que un modelo de reglas axiomáticas que procesan información, desapareciendo la concepción física sensorial. Esto justificaría la dificultad para comprender los fundamentos de la realidad.

En ocasiones se especula con la posibilidad de que la realidad no sea más que una compleja simulación, pero esto plantea un problema, ya que en tal caso sería necesario un soporte para su realización, lo que implica la existencia de una realidad subyacente necesaria para soportar dicha simulación [15].

Hay dos aspectos que no se han tratado y que son de una importancia trascendental para la comprensión del universo. El primero se refiere a la irreversibilidad en la capa de realidad clásica. De acuerdo a la AIT, la cantidad de información de una TM permanece constante, por lo que la irreversibilidad de los sistemas termodinámicos es un indicio de que estos sistemas son abiertos, ya que no verifican esta propiedad, aspecto al que la física debe dar respuesta.

El segundo está relacionado con el teorema de no clonación. Los sistemas cuánticos son reversibles y, de acuerdo al teorema de no clonación, no es posible hacer copias exactas del estado cuántico desconocido de una partícula. Pero de acuerdo al teorema de recursión, son necesarios al menos dos procesos independientes para hacer una copia. Esto significaría que en la capa cuántica no es posible disponer de al menos dos procesos independientes para copiar dicho estado cuántico. Una explicación alternativa sería que estos estados cuánticos tienen una complejidad no computable.

Finalmente, hay que destacar que la cuestión relativa a si la matemática en inventada o descubierta por los humanos está viciada por una visión antrópica del universo, que considera a los humanos como parte central de éste. Pero hay que concluir que los humanos son una parte del universo, al igual que todas las entidades que lo conforman, en particular las matemáticas.

Bibliografía

[1]E. P. Wigner, “The unreasonable effectiveness of mathematics in the natural sciences.,” Communications on Pure and Applied Mathematics, vol. 13, no. 1, pp. 1-14, 1960.
[2]R. Penrose, The Emperor’s New Mind: Concerning Computers, Minds, and the Laws of Physics, Oxford: Oxford University Press, 1989.
[3]R. Penrose, The Road to Reality: A Complete Guide to the Laws of the Universe, London: Jonathan Cape, 2004.
[4]J. P. Changeux and A. Connes, Conversations on Mind, Matter, and Mathematics, Princeton N. J.: Princeton University Press, 1995.
[5]C. E. Shannon, “A Mathematical Theory of Communication,” The Bell System Technical Journal, vol. 27, pp. 379-423, 1948.
[6]P. Günwald and P. Vitányi, “Shannon Information and Kolmogorov Complexity,” arXiv:cs/0410002v1 [cs:IT], 2008.
[7]M. Sipser, Introduction to the Theory of Computation, Wadsworth Publishing Co Inc, 2012.
[8]H. Poincaré, New Methods of Celestial Mechanics, Springer, 1992.
[9]A. M. Turing, “On computable numbers with an application to the Entscheidungsproblem,” Proc. London Math. Society, vol. 2, no. 42, pp. 230-265, 1936.
[10]A. W. Senior, R. Evans and e. al., “Improved protein structure prediction using potentials from deep learning,” Nature, vol. 577, pp. 706-710, Jan 2020.
[11]S. Kleene, “On Notation for ordinal numbers,” J. Symbolic Logic, no. 3, p. 150–155, 1938.
[12]A. Savine, Modern Computational Finance: AAD and Parallel Simulations, Wiley, 2018.
[13]N. Bostrom, “Are We Living in a Computer Simulation?,” The Philosophical Quarterly, vol. 53, no. 211, p. 243–255, April 2003.

¿Cuál es la naturaleza de la matemática?

La capacidad de las matemáticas para describir el comportamiento de la naturaleza, en particular en el campo de la física, es un hecho sorprendente, sobre todo si se tiene en cuenta que la matemática es una entidad abstracta creada por la mente humana y desconectada de la realidad física.  Pero si la matemática es una entidad creada por los humanos ¿cómo es posible esta correspondencia tan precisa?

A lo largo de los siglos este ha sido un tema de debate, centrándose en dos ideas contrapuestas: ¿Es la matemática inventada o descubierta por los humanos?

Esta pregunta ha dividido a la comunidad científica: filósofos, físicos, lógicos, cognitivos y lingüistas, pudiéndose decir que no sólo no hay un consenso, sino que generalmente se llega a posturas totalmente enfrentadas. Mario Livio en el ensayo “¿Es Dios un matemático?” [1] describe de forma amplia y precisa los acontecimientos históricos sobre el tema, desde los filósofos griegos hasta nuestros días.

El objetivo de este post es analizar este dilema, introduciendo nuevas herramientas de análisis como son la Teoría de la Información (IT) [2], la Teoría de la Información Algorítmica (AIT) [3] y la Teoría de la Computación (TC) [4], sin olvidar la perspectiva que muestra los nuevos conocimientos sobre Inteligencia Artificial (AI).

En este post se va a realizar un breve repaso del estado actual del tema, sin entrar en su desarrollo histórico, tratando de identificar las dificultades que obstaculizan su resolución, para en post posteriores analizar el problema desde una óptica diferente a la convencional, utilizando las herramientas lógicas que nos ofrecen las teorías anteriormente mencionadas.

Corrientes de pensamiento: ¿Inventada o descubierta?

De forma muy simplificada, se puede decir que en la actualidad la postura de que la matemática es descubierta por los humanos está encabezada por Max Tegmark, que plantea  en “Nuestro Universo Matemático” [5] que el universo es una entidad puramente matemática, lo que justificaría que la matemática describa la realidad con precisión, sino que la propia realidad sea una entidad matemática.

En el lado contrario,  existe un nutrido grupo  de científicos, entre los que cabría destacar a los cognitivos y biólogos que, basándose en el hecho de las capacidades del cerebro, mantienen que la matemática es un ente inventado por los humanos.

Max Tegmark: Nuestro Universo Matemático

En ambos casos, no existen argumentos que hagan caer la balanza hacia una de las hipótesis. Así, en el caso de Max Tegmark mantiene que la teoría definitiva (Teoría del Todo) no puede incluir conceptos tales como «partículas subatómicas», «cuerdas vibratorias», «deformación del espacio-tiempo» u otros constructos concebidos por el hombre. Por tanto, la única descripción posible del cosmos implica únicamente conceptos abstractos y relaciones entre ellos, lo que para él constituye la definición operativa de la matemática.

Este razonamiento supone que el cosmos tiene una naturaleza completamente independiente de la percepción humana, y su comportamiento está regido exclusivamente por dichos conceptos abstractos. Esta visión del cosmos parece acertada en la medida que elimina toda visión antrópica del universo, en la que los humanos no son más que una parte de él. Sin embargo, no justifica que las leyes físicas y los conceptos matemáticos abstractos sean la misma entidad.

En el caso de los que mantienen que la matemática es un ente inventado por los humanos los argumentos no suelen tener una estructura formal y se podría decir que en muchos casos corresponden más a una postura personal y de sentimiento. Una excepción es la postura mantenida por biólogos y cognitivos, en la cual los argumentos se fundamentan en la capacidad creativa del cerebro humano y que justificaría que la matemática es un ente creado por él.

Para estos, la matemática no difiere realmente del lenguaje natural, por lo que la matemática no sería más que otro lenguaje. Así, la concepción de la matemática no sería más que la idealización y abstracción de elementos del mundo físico. Sin embargo, este planteamiento presenta varias dificultades para poder concluir que la matemática es una entidad inventada por los humanos.

Por una parte, no aporta criterios formales para su demostración. Pero además presupone que la capacidad de aprendizaje es un atributo exclusivo de los humanos. Este es un punto crucial, que será tratado en post posteriores. Adicionalmente, se utiliza el lenguaje natural como un concepto central, sin tener en cuenta que cualquier interacción sea de la naturaleza que sea se realiza mediante un lenguaje, tal como demuestra la teoría de la computación [4], la cual es una teoría del lenguaje.

En consecuencia, se puede concluir que ninguna de las dos corrientes de pensamiento presentan argumentos concluyentes sobre cuál es la naturaleza de la matemática. Por esto, parece necesario analizar desde nuevos puntos de vista cuál es la causa para ello, ya que la realidad física y la matemática parecen íntimamente ligadas.

La matemática como una entidad descubierta

En el caso que considera la matemática la esencia misma del cosmos, y por tanto que la matemática es un ente descubierto por los humanos, el argumento es la equivalencia de los modelos matemáticos con el comportamiento físico. Pero para que este argumento sea concluyente se debería desarrollar la Teoría del Todo, en la cual las entidades físicas  fueran estrictamente de naturaleza matemática. Esto significa que la realidad estaría sustentada en un conjunto de axiomas y de la información que describe el modelo, el estado y la dinámica del sistema.

Esto significa una desmaterialización de la física, algo que de alguna forma parece estar ocurriendo a medida que avanza el desarrollo de las estructuras más profundas de la física. Así, las partículas del modelo estándar no son más que entidades abstractas con unas propiedades observables. Esta pudiera ser la clave, existiendo un indicio en el principio de Landauer [6], que establece una equivalencia entre información y energía.

Pero la resolución del problema por medios físicos o, para ser más precisos, por medio del contraste de modelos matemáticos con la realidad presenta una dificultad fundamental. En general, los modelos matemáticos describen la funcionalidad de un determinado contexto o capa de realidad, y  todos ellos tienen una característica común, de tal forma que estos modelos son irreductibles y desconectados de las capas subyacentes. Por tanto, se debería llegar a desentrañar la capa funcional más profunda, que desde el punto de vista de la AIT y de la TC es un problema no-computable.

La matemática como una entidad inventada

La corriente de opinión a favor de que la matemática es una entidad inventada por los humanos se sustenta en el lenguaje natural y en la capacidad del cerebro para aprender,  imaginar y crear.  

Pero esta argumentación tiene dos debilidades fundamentales. Por una parte, no proporciona argumentos formales que permitan probar de forma concluyente la hipótesis de que la matemática es una entidad inventada. Por otra parte, atribuye propiedades al cerebro humano que son una característica general del cosmos.

El hipocampo: Un ejemplo paradigmático del dilema descubierto o inventado.

Para aclarar este último punto, pongamos como ejemplo la invención de los números enteros por los humanos, que se usa habitualmente para apoyar esta postura. Imaginemos ahora un animal interaccionando con el entorno. Pera esto, éste tiene que interpretar el espacio tiempo con precisión como medio básico de supervivencia. Obviamente, el animal debe haber aprendido o inventado el mapa espacio temporal, algo mucho más complejo que los números naturales.

Es más, la naturaleza ha proporcionado o inventado el hipocampo [7], una estructura neuronal especializada en adquirir información a largo plazo que forma una circunvolución compleja, formando una red neuronal recurrente, muy adecuada para el tratamiento del mapa espacio-temporal y para la resolución de trayectorias. Y por supuesto esta estructura es física y codificada en el genoma de los animales superiores. La cuestión es: ¿Es esta estructura descubierta o inventada por la naturaleza?

En lo relativo al uso del lenguaje como argumento, hay que apuntar que el lenguaje es el medio de interacción en la naturaleza en todos los niveles funcionales. Así, la biología es un lenguaje, la interacción entre partículas es formalmente un lenguaje, aunque este punto requiere un análisis más profundo para su justificación. En particular, el lenguaje natural es de hecho un lenguaje no formal, por lo que no es un leguaje axiomático, lo que hace que sea inconsistente.

Finalmente, en relación con la capacidad de aprendizaje atribuida al cerebro, esta es una característica fundamental de la naturaleza, como demuestran los modelos matemáticos de aprendizaje y puestos de manifiesto de forma incipiente por la AI.

Otra forma de abordar la pregunta sobre la naturaleza de la matemática es mediante el enigma de Wigner [8], en el cual se pregunta por la eficacia inexplicable de las matemáticas. Pero este tema y los temas abiertos anteriormente serán tratados y ampliados en post posteriores.

Bibliografía

[1] M. Livio, Is God a Mathematician?, New York: Simon & Schuster Paperbacks, 2009.
[2] C. E. Shannon, «A Mathematical Theory of Communication,» The Bell System Technical Journal, vol. 27, pp. 379-423, 1948. 
[3] P. Günwald and P. Vitányi, “Shannon Information and Kolmogorov Complexity,” arXiv:cs/0410002v1 [cs:IT], 2008.
[4] M. Sipser, Introduction to the Theory of Computation, Course Technology, 2012.
[5] M. Tegmark, Our Mathematical Universe: My Quest For The Ultimate Nature Of Reality, Knopf Doubleday Publishing Group, 2014.
[6] R. Landauer, «Irreversibility and Heat Generation in Computing Process,» IBM J. Res. Dev., vol. 5, pp. 183-191, 1961.
[7] S. Jacobson y E. M. Marcus, Neuroanatomy for the Neuroscientist, Springer, 2008.
[8] E. P. Wigner, «The unreasonable effectiveness of mathematics in the natural sciences.,» Communications on Pure and Applied Mathematics, vol. 13, nº 1, pp. 1-14, 1960.

COVID-19: ¿Qué hace diferente a esta pandemia?

La zoonosis, o salto de un virus de animales a los humanos, tiene las características de un evento contingente. En principio, este salto puede ser limitado por medio del control sanitario de especies animales domésticas y por medio de la regulación del comercio, contacto y consumo de especies salvajes. Sin embargo, dada la complejidad de la sociedad moderna y del estrecho contacto entre humanos a nivel global, la probabilidad del salto de un virus al humano no es un evento evitable, por lo que la zoonosis puede ser considerada un fenómeno contingente.

Esta situación se ha puesto claramente de manifiesto en los últimos tiempos con la aparición del MERS (MERS-Cov), SARS (SARS-Cov) y recientemente el COVID-19 (SARS-Cov-2).  Esta propagación está motivada fundamentalmente por la globalización, aunque los factores son múltiples y complejos, como son los controles sanitarios y la estructura de las explotaciones ganaderas. Pero la lista es larga, pudiéndose mencionar también la expansión de otras enfermedades víricas por causa del cambio climático, como pueden ser el Zika, la Chikungunya o el Dengue.

La cuestión que se plantea en este escenario es: ¿Qué factores influyen en la magnitud y rapidez de la expansión de una pandemia? Así, en los casos mencionados anteriormente se puede apreciar una diferencia muy significativa en el comportamiento y extensión de la infección. Excepto en el caso del COVID-19, la expansión ha sido limitada y los brotes han podido ser localizados y aislados, evitando una expansión global.

Por el contrario, la situación ha sido completamente diferente con el CoVID-19. Así, su rápida expansión ha cogido desprevenidos a sociedades poco familiarizadas con este tipo de problemas, por lo que los sistemas sanitarios se han visto desbordados y sin protocolos apropiados para el tratamiento de la infección. Por otra parte, los gobernantes inconscientes de la magnitud del problema, e ignorante de las mínimas precauciones de cómo impedir la propagación del virus, parece haber cometido una serie de errores encadenados, típicos de procesos catastróficos, tales como quiebras económicas y accidentes aéreos.

El impacto a largo plazo es todavía muy difícil de evaluar, ya que ha desencadenado un círculo vicioso de acontecimientos que afectan a actividades fundamentales de la sociedad moderna.

En particular,  el impacto en los servicios sanitarios va a dejar una huella profunda, con extensión a áreas que en principio no están directamente relacionadas con el COVID-19, cómo son los efectos sicológicos y psiquiátricos derivados de la percepción del peligro y del confinamiento social. Pero más importante aún es la detracción de recursos en otras actividades sanitarias, habiéndose reducido el flujo de la actividad sanitaria cotidiana, por lo que es previsible un futuro aumento de las tasas de la morbilidad y la mortalidad de otras enfermedades, especialmente de cáncer.

A todo esto hay que añadir el deterioro de la actividad económica, con reducciones de PIB de hasta dos cifras, que va a desencadenar un incremento de la pobreza, sobre todo en los segmentos de población más desfavorecidos. Y puesto que el factor económico es la correa de transmisión de la actividad humana, es fácil imaginar un escenario de tormenta perfecta.

Factores determinantes de la pandemia COVID-19

Pero volvamos a la pregunta que se ha planteado, sobre la singularidad del SARS-Cov-2, para que su expansión haya sido imparable y que en la actualidad nos estemos enfrentando a una segunda oleada.

Para desentrañar este interrogante se puede analizar lo que nos muestran los modelos matemáticos de expansión de una infección, comenzando por el modelo SIR clásico. Este tipo de modelos permite determinar las tasas de infección (β) y de recuperación (γ), así como la tasa de reproducción básica (R0=β/γ) a partir de la morbilidad observada.

El origen de los modelos SIR (Susceptible, Infeccioso, Recuperado) se remonta a principios del siglo XX, propuestos por Kermack and McKendrick en 1927. La ventaja de estos modelos es que están basados en un sistema de ecuaciones diferenciales, el cual puede ser resuelto de forma analítica y por tanto adecuado para su resolución en la época que fueron propuestos. 

Sin embargo, este tipo de modelos son básicos y no facilitan hacer consideraciones de distribución geográfica, movilidad, probabilidad de contagio, estado clínico, desarrollo temporal de cada una de las fases de la infección, edad, sexo, distancia social, protección, rastreo y estrategias de test. Por otra parte, el modelo SIR clásico tiene una estructura deductiva, exclusivamente. Esto significa que a partir de los datos de morbilidad es posible determinar la tasa de reproducción básica de forma exclusiva, ocultando parámetros fundamentales en el proceso de pandemia, como se justificará a continuación.

Para contrastar esta idea es necesario plantear nuevas aproximaciones a la simulación del proceso de pandemia, como es el caso de estudio propuesto en “Un modelo de difusión del Covid-19” y en su implementación. En este caso, el modelo es una estructura SIR discreta, en el que los individuos pasan por un proceso de infección y recuperación con estados realistas, además de incluir todos los parámetros de definición del escenario mencionados anteriormente, o sea, probabilidad de infección, distribución geográfica de la población, movilidad, etc. Esto permite una simulación precisa de la pandemia y, a pesar de su complejidad, su estructura es muy adecuada para implementación con los medios computacionales actuales.

La primera conclusión que se obtuvo de las simulaciones de la fase inicial de la pandemia fue la necesidad de considerar la existencia de una población asintomática muy significativa. Así, en el modelo clásico es posible obtener una rápida expansión de la pandemia considerando simplemente valores elevados de la tasa de infección (β).

Por el contrario, en el modelo discreto la aplicación de los datos existentes no justificaba los datos observados, a no ser que hubiera una población asintomática muy significativa que ocultara la verdadera magnitud de la extensión de la infección. Se debe considerar que la población sintomática en las primeras fases de  la pandemia era reducida. Esto unido a los datos de expansión por diferentes zonas geográficas y las posibles probabilidad de infección producía unos resultados temporales de expansión mucho más lentos e que incluso no desencadenaban el cebado del modelo.

En resumen, el resultado de las simulaciones conducía a escenarios totalmente inconsistentes, hasta que se incluyó una población de asintomáticos elevada, a partir de la cual el modelo comenzó a comportarse de acuerdo a los datos observados. En la actualidad se disponen ya de estadísticas más precisas que confirman este comportamiento  que, en el grupo de infectados, llegan a establecer que el 80% son asintomáticos, el 15% son sintomáticos que requieren algún tipo de atención médica por medio de tratamiento o de ingreso hospitalario y, el resto, un 5% que requiere desde soporte vital de nivel básico hasta soporte vital avanzado.

Estas cifras permiten explicar la virulencia de una pandemia, la cual está fuertemente regulada por el porcentaje de individuos asintomáticos. Este comportamiento justifica la enorme diferencia entre el comportamiento de diferentes tipos de virus. Así, si un virus tiene una alta morbilidad es sencillo de rastrear y de aislar, ya que los casos infecciosos no permanecen ocultos. Por el contrario un virus con baja morbilidad mantiene oculto a los individuos portadores de la enfermedad, al pertenecer al grupo de asintomáticos. A diferencia de los virus mencionados anteriormente, el COVID-19 es un ejemplo paradigmático de este escenario, con el agravante de que es un virus que ha demostrado una gran capacidad de contagio.

Este comportamiento ha propiciado que cuando la pandemia ha mostrado su cara ya existía un enorme grupo de individuos portadores. Y este ha sido probablemente el origen de una cadena de acontecimientos de graves consecuencias sanitarias, económicas y sociales.

Los mecanismos de expansión y contención de la pandemia

Visto en retrospectiva, todo parece indicar que la aparente escasa incidencia de las primeras semanas hizo percibir que el riesgo de pandemia era reducido y poco virulento. Obviamente,  una observación distorsionada claramente por la ocultación del problema provocada por la naturaleza asintomática de la mayoría de los infectados.

Esto posiblemente condicionó también la respuesta para su contención. La inadecuada gestión de la amenaza por parte de gobiernos e instituciones, la falta de recursos de protección y el mensaje transmitido a la población acabó por materializar la pandemia.

En este contexto, hay un aspecto que llama profundamente la atención. Una enfermedad con una alta capacidad infecciosa requiere un medio de transmisión muy eficaz y puesto que los primeros síntomas eran de tipo pulmonar se debería haber concluido que la vía aérea era el medio de transmisión principal. Sin embargo, se puso mucho énfasis en el contacto físico directo y en la distancia social. Es sorprendente la minimización del efecto de los aerosoles, los cuales son muy activos en espacios cerrados, tal como se está reconociendo en la actualidad.

Hay que apuntar también otro matiz aparentemente insignificante relacionado con el comportamiento de la pandemia bajo medidas de protección. Éste está relacionado con el modelado de la pandemia. En el modelo SIR clásico se presupone que la tasa de infección (β) y de recuperación (γ) son exclusivamente proporcionales a los tamaños de las poblaciones en los diferentes estados. Sin embargo, esto es una aproximación que enmascara el proceso estadístico subyacente y que en el caso de la recuperación supone además un error conceptual. Este supuesto determina la estructura de las ecuaciones diferenciales del modelo, imponiendo una solución general de tipo exponencial que no es necesariamente la real.

Por cierto, las funciones exponenciales introducen un retardo de fase, lo que produce el efecto de que la recuperación de un individuo se produzca a trozos, por ejemplo, ¡primero la cabeza y luego las piernas!

Pero la realidad es que el proceso de infección es un proceso totalmente estocástico que es función de la probabilidad de contagio determinada por la capacidad del virus, de la susceptibilidad del individuo, la interacción entre individuos infectados y susceptibles, la distribución geográfica, la movilidad, etc. En definitiva, este proceso tiene una  naturaleza Gaussiana.

Como luego se justificará, este proceso Gaussiano aparece enmascarado por la superposición de la infección en diferentes áreas geográficas, por lo que son sólo visibles en brotes locales independientes, como consecuencia de una contención efectiva de los brotes. Un ejemplo de esto lo encontramos en el caso de Corea del Sur, representado en la figura siguiente.

En el caso de la recuperación el proceso corresponde a una línea de retardo estocástica y por tanto Gaussiana, ya que sólo depende de los parámetros temporales de recuperación impuestos por el virus, la respuesta del individuo y los tratamientos curativos. Por tanto, el proceso de recuperación es totalmente independiente para cada individuo.

El resultado es que la solución general del modelo SIR discreto son Gaussianas y por tanto responden a una función exponencial cuadrática, a diferencia de las funciones exponenciales de orden uno del modelo SIR clásico. Esto hace que las medidas de protección sean mucho más eficaces que las expuestas por los modelos convencionales, por lo que deben considerarse un elemento fundamental para determinar la estrategia de contención de la pandemia.

La cuestión es que una vez que la pandemia es un hecho evidente se debe proceder a establecer medidas de contención y confinamiento. Es en este punto donde la COVID-19 plantea un reto de gran complejidad, como consecuencia de la gran proporción de individuos asintomáticos, que son los principales contribuyentes a la expansión de la infección.

Una solución radical al problema requiere el confinamiento estricto de toda la población durante un periodo no inferior al periodo de latencia del virus en un infectado. Para ser efectiva, esta medida debe estar acompañada de las medidas de protección en el entorno familiar o cercano, así como de amplias campañas de rastreo. Esta estrategia ha mostrado su eficacia en algunos países de Asia. 

En realidad, la adopción de medidas tempranas de profilaxis y contención es la única medida para contener de forma eficaz la pandemia, tal como muestra el resultado del  modelo para diferentes fechas de confinamiento. Es interesante destacar que la dispersión de las curvas en las zonas de cebado del modelo es consecuencia de la naturaleza estocástica del modelo.

Pero la aplicación tardía de esta medida, cuando el número de infectados ocultos era ya muy elevada, unido a la falta de una cultura profiláctica frente a pandemias en los países occidentales ha hecho que estas medidas hayan sido poco efectivas y muy lesivas.

En este sentido, hay que destacar que la postura de los gobiernos ha sido tibia y en la mayor parte de los casos totalmente errática, lo que ha contribuido a que las medidas de confinamiento hayan tenido un seguimiento muy laxo por parte de la población.

En este punto es importante destacar que ante la falta de una acción eficaz, los gobiernos han basado su estrategia de distracción en la disponibilidad de una vacuna, algo que a todas luces no es una solución a corto plazo.

Como consecuencia de la ineficacia de la medida, el periodo de confinamiento se ha prolongado en exceso, levantándose las restricciones una vez que las estadísticas de morbilidad y mortalidad iban bajando. El resultado es que, como el virus está extendido en la población, se han producido inevitablemente nuevas olas de contagio.

Este es otro aspecto importante a la hora interpretar las cifras de expansión de la pandemia. De acuerdo al modelo SIR clásico todo parece indicar que en la progresión de las cifras hay que esperar un pico de contagios que debe disminuir exponencialmente. A lo largo de los primeros meses, los responsables del control de la pandemia han estado buscando este pico, así como el aplanamiento de la curva de integración de los casos totales. Algo esperado pero que nunca parecía llegar.

La explicación a este fenómeno es bastante sencilla. La expansión de la pandemia no está sujeta a la infección de un grupo cerrado de individuos, como supone el modelo SIR clásico. Por el contrario, La expansión del virus se produce una función de áreas geográficas con una densidad de población específica y de la movilidad de los individuos entre ellas. El resultado es que las curvas que describen la pandemia son una superposición compleja de los resultados de todo este conglomerado, tal como muestra la curva de fallecidos en España, en las fechas indicadas. 

El resultado es que el proceso puede prolongarse en el tiempo, de tal forma que la dinámica de las curvas es una superposición compleja de brotes que evolucionan de acuerdo a múltiples factores, como son la densidad y  la movilidad de la población, las medidas de protección, etc.  

 Esto indica que los conceptos que se manejan sobre expansión de una pandemia deben ser profundamente revisados. Lo cual no debe sorprendernos si se considera que a lo largo de la historia no han existido datos fiables que hayan permitido contrastar su comportamiento.

Evolución de la morbilidad y la mortalidad.

Otro aspecto interesante es el estudio de la evolución de la morbilidad y de la mortalidad del SARS-Cov-2. Para ello pueden utilizarse los históricos de la casuística, sobre todo ahora que se comienza a tener datos de una segunda oleada de infección, tal como se muestra en la figura siguiente.

A la vista de estos datos podría sacarse una conclusión precipitada, asegurando que el virus está afectando a la población con una mayor virulencia, aumentando la morbilidad, pero por otra parte también podría decirse que la mortalidad está disminuyendo de forma drástica.

Pero nada más lejos de la realidad si se considera el procedimiento de obtención de los datos de casos diagnosticados. Así, se puede observar que la magnitud de la curva de diagnosticados en segunda fase es mayor que en la primera fase, lo que indica una mayor morbilidad. Sin embargo, en la primera fase el diagnostico era mayoritariamente de tipo sintomático, dada la carencia de recursos para la realización de test. Por el contrario, en la segunda fase el diagnóstico ha sido realizado de forma sintomática y por medio de test, PCR y serológicos.

Esto no ha hecho más que aflorar la magnitud del grupo de infectados asintomáticos, que estaban ocultos en la primera fase. Por tanto, no se puede hablar de una mayor morbilidad. Al contrario, si se observa la pendiente de evolución de la curva, ésta es más suave, lo que indica que la probabilidad de infección está siendo mucho más baja que la mostrada en el mes de mes de marzo. Esto es un claro indicativo de que las medidas de protección son efectivas. Y lo serían más si la disciplina fuera mayor y los mensajes convergieran en esta medida, en lugar de crear confusión e incertidumbre.

Si se comparan las pendientes de las curvas de casos, queda patente que la expansión de la pandemia en la primera fase fue muy abrupta, como consecuencia de la existencia de multitud de vectores  asintomáticos y de la falta absoluta de medidas de prevención. En la segunda fase la pendiente es más suave, atribuible a las medidas de prevención. La comparación de estas pendientes es de un factor de 4, aproximadamente.

Sin embargo, es posible que sin medidas de prevención la segunda fase pudiera ser mucho más agresiva. Esto es así si se considera que es muy posible que el número de vectores contagio en la actualidad sea muy superior al existente en la primera fase, ya que la pandemia está mucho más extendida. Por tanto el factor de expansión pudiera haber sido mucho mayor en la segunda fase, como consecuencia de este parámetro.

En cuanto a la mortalidad, el cociente entre fallecidos y diagnosticados parece haber descendido drásticamente, lo que conduciría a decir que la letalidad del virus ha descendido. Así en el pico de la primera fase su valor era aproximadamente 0.1, mientras que en la segunda fase tiene un valor aproximado de 0.01, o sea un orden de magnitud inferior.

Pero considerando que en las cifras de diagnosticados de la primera fase los asintomáticos estaban ocultos, ambos cocientes no son comparables. Obviamente, el término correspondiente a los asintomáticos permitiría explicar esta aparente disminución, aunque también hay que considerar que la mortalidad real ha disminuido como consecuencia de la mejora de los protocolos de tratamiento.

En consecuencia, no es posible sacar consecuencias sobre la evolución de la letalidad del virus, pero lo que es cierto es que las magnitudes de mortalidad están descendiendo por dos razones. Una virtual, como es la disponibilidad de cifras de infectados más fiables, y, otra real, como consecuencia de la mejora de los protocolos de tratamiento.

Estrategia de futuro

En el momento actual, parece claro que la expansión del virus es un hecho consolidado, por lo que la única estrategia posible a corto y medio plazo es limitar su impacto. A largo plazo, la disponibilidad de una vacuna podría finalmente erradicar la enfermedad, aunque también habrá que considerar la posibilidad de que la enfermedad se convierta en endémica o recurrente.

Por esta razón, y considerando las implicaciones de la pandemia en la actividad humana de todo tipo, los planes de futuro deben basarse en una estrategia de optimización, de tal forma que se minimice el impacto en la salud general de la población y en la economía. Esto es así, ya que el aumento de la pobreza podrá llegar a tener un impacto superior a la propia pandemia.

Bajo este punto de vista y considerando los aspectos analizados con anterioridad, la estrategia debe basar en los siguientes puntos:

  • Medidas de protección y profilaxis estrictas: Mascarillas, limpieza, ventilación, distancia social en todos los ámbitos.
  • Protección de los segmentos de población de riesgo.
  • Mantener en la medida de lo posible las actividades económicas y cotidianas.
  • Conciencia social. Declaración y aislamiento voluntario en caso de infección y cumplimiento de las normas sin necesidad de medidas coercitivas. 
  • Implementar una estructura organizativa para la realización de test masivos, rastreo y aislamiento de infectados.

Es importante destacar que, tal como está demostrando la experiencia, las medidas agresivas de confinamiento no son adecuadas para evitar olas sucesivas de infección y en general son altamente ineficaces, ya que producen desconfianza y rechazo, lo cual es un freno para luchar contra la pandemia.

Otro aspecto interesante es que la implementación de los puntos anteriores no corresponde a proyectos estrictamente de tipo sanitario, sino que son proyectos de gestión y control de recursos. Por esta razón, las actividades orientadas a luchar contra la pandemia deben ser proyectos Ad hoc, ya que la pandemia es un hecho eventual, al cual hay que dedicar esfuerzos específicos.

Dirigir el esfuerzo a través de organizaciones tales como la propia sanidad no producirá más que una desestructuración de la propia organización y una dispersión de recursos, tarea para la cual no se ha creado ni tiene el perfil para ello.

Covid-19: Interpretación de datos

A la vista de la expansión del Covid-19 en diferentes países, y tomando como referencia el modelo de expansión expuesto en el post anterior, se puede hacer una interpretación de los datos, con objeto de resolver algunas dudas y contradicciones planteadas en diferentes foros.

Pero antes de comenzar este análisis, es importante destacar una característica sobresaliente de la expansión del Covid-19 puesta de manifiesto por el modelo. En general, la modelización de los procesos infecciosos se suele centrar en la tasa de infección de los individuos, dejando en un segundo plano los aspectos temporales como los periodos de incubación o de latencia de los patógenos. Esto se justifica como consecuencia de que su influencia pasa generalmente desapercibida, además de introducir dificultades en el estudio analítico de los modelos.  

Sin embargo, en el caso del Covid-19 su rápida expansión hace evidente el efecto de los parámetros temporales, poniendo a los sistemas sanitarios en situaciones críticas y dificultando la interpretación de los datos que van surgiendo a medida que la pandemia se extiende.  

En este sentido hay que destacar como características sobresalientes del Covid-19:

  • La elevada capacidad de infección.
  • La capacidad de infección de individuos en fase de incubación.
  • La capacidad de infección de individuos asintomáticos.

Esto hace que el número de posibles casos asintomáticos sea muy elevado, presentando una gran dificultad su diagnóstico, como consecuencia de la falta de medios provocada por la novedad y rápida expansión del virus.

Por esta razón, el modelo implementado ha tenido en cuenta los parámetros temporales de desarrollo de la infección, lo que requiere un modelo numérico, ya que la solución analítica es muy compleja y posiblemente sin solución estrictamente analítica.  

Como consecuencia el modelo presenta una característica distintiva frente a los modelos convencionales, la cual se pone de manifiesto en la figura siguiente.  

Esta consiste en que es necesario distinguir a los grupos de individuos asintomáticos y sintomáticos, ya que presentan una evolución temporal retardada  en el tiempo. Como consecuencia de esto ocurre lo mismo con la curvas de individuos hospitalizados y en UCI.

Esto permite aclarar algunos aspectos ligados a la evolución real del virus. Así por ejemplo, en relación con la declaración de las medidas excepcionales en Italia y España, se esperaba una mejora sustancial en la contención de la pandemia, algo que todavía parece lejana. La razón que justifica este comportamiento es que las medidas de contención han sido tomadas en base a la evolución de la curva de individuos sintomáticos, pasando por alto el hecho de que ya existía una población muy importante de individuos asintomáticos.

Tal como se aprecia en las gráficas, las medidas hubieran debido tomarse al menos con tres semanas de antelación, o sea de acuerdo a la curva de evolución de individuos asintomáticos. Pero para poder tomar esta decisión de forma acertada se debería haber dispuesto de estos datos, algo totalmente imposible, como consecuencia de la falta de una campaña de test sobre la población. 

Esta situación se corrobora con el ejemplo de China, que si bien no pudo contenerse la expansión del virus en una etapa temprana, las medidas de contención se tomaron, en una escala comparativa de tiempo, varias semanas antes.

Los datos de Alemania son también muy significativos, exhibiendo una tasa de mortalidad muy inferior a los de Italia y España. Aunque esto plantea una incógnita de cara a la capacidad de infección en este país, en realidad es fácil de explicar. En Italia y España se está comenzando a hacer  test de infección por Covid-19. Sin embargo, en Alemania estos test se están realizando desde hace varias semanas a un ritmo de varios cientos de miles por semana. Por el contrario, las cifras de individuos diagnosticados en Italia y España deberán ser revisadas en el futuro.

Esto explica que para un número elevado de individuos  infectados la tasa de mortalidad  sea más baja.  Esto tiene además una ventaja determinante, ya que el diagnóstico precoz permite aislar a los individuos infectados, reduciendo la posibilidad de infección a otros individuos, lo que finalmente va a resultar en una tasa de mortalidad inferior.

Por tanto, se puede hacer una rápida conclusión que puede resumirse en los siguientes puntos:  

  • Las medidas de aislamiento de la población son necesarias, pero poco efectivas cuando estas se toman en una fase avanzada de la pandemia.
  • La detección precoz de la infección es un aspecto totalmente determinante en la contención de la pandemia y sobre todo en la reducción de la tasa de mortalidad.

Un modelo de la difusión del Covid-19

La razón para abordar este tema es doble. Por una parte, el Covid-19 es el reto más importante para la humanidad en este momento, pero por otra parte el proceso de expansión del virus es un ejemplo de cómo la naturaleza establece modelos basados en el procesado de información.

El análisis de la dinámica de expansión del virus y sus consecuencias la basaremos en un modelo implementado en Python, que para aquellos que tengan interés puede ser descargado, pudiéndose realizar los cambios que se consideren oportunos para analizar diferentes escenarios.

El modelo

El modelo está basado en una estructura de 14 estados y 20 parámetros, los cuales determinan las probabilidades y la dinámica temporal de las transiciones entre estados. Es importante destacar que en el modelo se ha considerado que los únicos vectores de propagación del virus son los estados “sintomático” y “asintomático”.  El modelo también establece parámetros de movilidad de los individuos y la tasa de infección.

El modelo tiene algunas simplificaciones, así supone que la distribución geográfica de la población es homogénea, lo ha contribuido a reducir significativamente el esfuerzo computacional. En principio, esto puede parecer una limitación importante, sin embargo veremos que no supone un obstáculo para extraer conclusiones globales. La figura siguiente representa de forma simplificada el diagrama de estados del modelo. Las condiciones que establecen las transiciones pueden ser consultadas en el modelo.

Los parámetros se han ajustado de acuerdo a la experiencia obtenida de la progresión del virus, por lo que la información es limitada y deberá estar sujeta a revisión posterior. En cualquier caso, parece claro que el virus presenta una alta eficiencia a la hora de infiltrase en las células para realizar el proceso de copia, por lo que la carga viral necesaria para la infección es reducida. Esta presupone una alta tasa de infección, por lo que además se supone que una parte importante de la población será infectada.

Los escenarios de propagación del virus pueden ser catalogados en los siguientes apartados:

  • Medidas de acción temprana para confinar la expansión del virus.  
  • Propagación descontrolada del virus.
  • Medidas excepcionales para limitar la propagación de virus.

El primer escenario no va a ser analizado ya que no es el caso de la situación actual. Este escenario puede ser analizado modificando los parámetros del modelo.

Por tanto, los escenarios de interés son los de propagación descontrolada y el de toma de medidas excepcionales, ya que estos representan el estado de pandemia actual.

La evolución natural

La dinámica del modelo para el caso de propagación descontrolada se muestra en la figura siguiente. En esta se puede apreciar que los vectores más importantes en la propagación del virus son los individuos asintomáticos, por tres razones fundamentales. La primera es el amplio impacto del virus en la población. La segunda está determinada por el hecho de que sólo produce un cuadro sintomático en una fracción limitada de la población. La tercera está directamente relacionada con las limitaciones prácticas para diagnosticar individuos asintomáticos, como consecuencia de la novedad y rápida expansión del Covid-19.

Por esta razón parece claro que las medidas extraordinarias para contener el virus deben incidir en limitar de forma drástica el contacto entre humanos. Esto es lo que seguramente ha aconsejado la posible suspensión de las actividades académicas, que incluye a de la población infantil y juvenil, no por ser un grupo de riesgo sino por ser la población más activa en la propagación del virus.

La otra característica de la dinámica de propagación es el abrupto crecimiento temporal de afectados por el virus, hasta que este alcanza a la toda la población, iniciándose una rápida recuperación, pero condenando a los grupos de riesgo a su ingreso en la Unidad de Cuidados Intensivos (ICU) y probablemente a la muerte.

Esto planteará una problemática aguda en los sistemas sanitarios, pudiéndose prever un incremento de casos colaterales que fácilmente pueden superar a los casos directos producidos por el Covid-19. Esto aconseja la toma de medidas extraordinarias, pero al mismo tiempo surge la duda de la eficacia de estas medidas, ya que su rápida expansión puede reducir la eficacia de estas medidas, llegando tarde la toma de decisiones.

La situación actual

Este escenario se representa en las figuras siguientes en la que se decreta una cuarentena para gran parte de la población, restringiendo la capacidad de movimiento de los vectores de propagación. Para confirmar lo expuesto anteriormente se han modelado dos situaciones. La primera, en la que la decisión de medidas extraordinarias se ha tomado antes de que la curva de sintomáticos diagnosticados comience a crecer, lo que en la figura ocurre alrededor del día 40 desde el paciente cero. La segunda, en la que la decisión se ha tomado posteriormente, cuando la curva de sintomáticos diagnosticados está en claro crecimiento, alrededor del día 65 desde el paciente cero.

Estos dos escenarios indican claramente que es más que posible que las medidas se hayan tomado con retraso y que la pandemia sigue su curso natural, debido al retardo existente entre las gráficas de infectados y la de pacientes sintomáticos. En consecuencia, parece que las medidas de contención no van a ser todo lo efectivas que cabría esperar, y considerando que los factores económicos van posiblemente a tener consecuencias muy profundas a largo y medio en el bienestar de la sociedad, se debería pensar en soluciones alternativas.

Es interesante observar como la declaración de medidas especiales modifica el comportamiento temporal de la pandemia. Pero, una vez que estas no se han tomado en una fase inicial de la aparición del virus, las consecuencias son profundas.

Lo que se puede esperar

Obviamente, la solución más apropiada sería encontrar remedios para curar la enfermedad, en lo que se está trabajando activamente, pero que tiene un periodo de desarrollo que pueden superar los establecidos por la dinámica de la pandemia.

Sin embargo, como se conoce los grupos de riesgo, el impacto  y la magnitud de estos, una posible solución alternativa sería:

  • Someter a una cuarentena extrita a estos colectivos, manteniéndoles totalmente aislados del virus e implementando servicios de atención para poder hacer efectivo este aislamiento hasta que remita la pandemia, o se encuentre un tratamiento efectivo.
  • Implementar hospitales dedicados exclusivamente al tratamiento del Covid-19.
  • Para el resto de la población no incluida en los grupos de riesgo seguir con la actividad normal, dejando que la pandemia se extienda (Algo que parece ya ser una posibilidad inevitable). No obstante, se deberán tomar estrictas medidas profilácticas y de seguridad. 

Esta estrategia presenta ventajas innegables. En primer lugar, esto reduciría la presión sobre el sistema sanitario, evitando el colapso de la actividad normal del sistema y propiciando una recuperación más rápida.  En segundo lugar, reduciría los problemas de flujo de capital y tesorería en los estados, que pueden conducir a una crisis sin precedentes, cuyas consecuencias serán con toda seguridad más graves que la propia pandemia.

Por último, queda por analizar un aspecto importante del modelo  como es su limitación para modelar una distribución no homogénea de la población. Este apartado es fácil de resolver si se considera que funciona correctamente para el caso de las ciudades. Así, para modelas el caso de una extensión geográfica más amplia sólo hay que modelas los casos particulares de cada cuidad o comunidad con un desfase temporal tal como está mostrando la propia extensión de la pandemia.

Queda aún por determinar un aspecto como es la duración de las medidas extraordinarias. Si se considera que la carga viral para infectar a un individuo es pequeña, es posible que los repositorios remanentes al final del periodo de cuarentena puedan volver a activar la enfermedad, en aquellos individuos que todavía no hayan sido expuestos al virus o que no se hayan inmunizado. Esto es especialmente importante si se considera que las personas curadas pueden seguir infectadas 15 días más.

Percepción de la complejidad

En post anteriores, la naturaleza de la realidad y de su complejidad se ha enfocado desde el punto de vista de la Teoría de la Información. Sin embargo, es interesante hacer este análisis desde el punto de vista de la percepción humana y de esta manera obtener una visión más intuitiva.

Obviamente, hacer un análisis exhaustivo de la realidad desde esta perspectiva es complejo debido a diversidad de los órganos de percepción y a los aspectos fisiológicos y neurológicos que sobre ellos se desarrollan. En este sentido, se podría exponer como la información percibida es procesada, en función de cada uno de los órganos de percepción. Especialmente el sistema auditivo y el visual, ya que estos tienen una mayor trascendencia en los aspectos culturales. Así, en el post dedicado a la percepción del color se ha descrito como los parámetros físicos de la luz son codificados por las células fotorreceptoras de la retina.

Sin embargo, en este post el planteamiento va a consistir en analizar de forma abstracta como el conocimiento condiciona la interpretación de la información, de tal forma que la experiencia previa puede dirigir el análisis en una cierta dirección. Este comportamiento establece a priori supuestos o condicionantes que limitan el análisis de la información en toda su extensión y que como consecuencia impiden obtener ciertas respuestas o soluciones. La superación de estos obstáculos, a pesar del condicionamiento planteado por la experiencia previa, es lo que se conoce como pensamiento lateral.

Para comenzar, consideremos el caso de los acertijos matemáticos de series en los que se presenta una secuencia de números, caracteres o gráficos en las que se pide determinar cómo continua la secuencia. Por ejemplo, dada la secuencia “IIIIIIIVVV”, se pide determinar cuál es el carácter siguiente. Si la cultura romana no hubiera llegado a desarrollarse, podría decirse que el carácter siguiente es “V”, o también que la secuencia ha sido hecha por peques haciendo garabatos. Pero este no es el caso, por lo que el cerebro comienza a maquinar determinando que los caracteres pueden ser romanos y que la secuencia es la de los números “1,2,3,…”. En consecuencia el carácter siguiente debe ser “I”.

De esta forma, se puede apreciar como el conocimiento adquirido condiciona la interpretación de la información percibida por los sentidos. Pero de este ejemplo se puede extraer otra conclusión, consistente en la ordenación de la información como un signo de inteligencia. Para exponer esta idea de manera formal consideremos una secuencia numérica, por ejemplo la serie de Fibonacci “0,1,2,3,5,8,…”. Análogamente al caso anterior el número siguiente deberá ser 13, de tal forma que el término general puede expresarse como fn=fn-1+fn-2. No obstante podemos definir otra función matemática discreta que tome los valores “0,1,2,3,5,8” para n =0,1,2,3,4,5, pero difiera para el resto de valores de n pertenecientes a los números naturales, tal como muestra la figura siguiente. De hecho, con este criterio es posible definir infinitas funciones que cumplan este criterio.

Por tanto, la pregunta es: ¿Qué tiene de particular la serie de Fibonacci respecto del conjunto  funciones que cumplen la condición definida anteriormente?

Aquí se puede hacer el razonamiento ya utilizado en el caso de la serie de números romanos. De tal forma que la formación matemática conduce a identificar la serie de números como pertenecientes a la serie de Fibonacci. Pero esto plantea una contradicción, ya que podría haberse identificado cualquiera de las funciones que cumplen el mismo criterio. Para despejar esta contradicción se debe volver a hacer uso de la Teoría Algorítmica de la Información (AIT).

En primer lugar, hay que destacar que culturalmente el juego de las adivinanzas supone implícitamente seguir unas reglas lógicas y que, por tanto, la respuesta esté libre de arbitrariedad. Así, en el caso de las series numéricas el juego consiste en determinar una regla que justifique el resultado. Si ahora se trata de identificar una regla que determine la secuencia “0,1,2,3,5,8,…” veremos que la más sencilla es fn=fn-1+fn-2. De hecho, es posible que esta sea la más sencilla dentro de este tipo de expresiones. El resto son expresiones complejas, arbitrarias o siendo simples siguen reglas diferentes a las reglas implícitas del acertijo.

Desde el punto de vista de la AIT,  la solución que contiene menos información y que, como consecuencia, puede expresarse de la forma más simple será la respuesta más probable que dará el cerebro a la hora de identificar un patrón determinado por un estímulo. En el ejemplo expuesto, la descripción de la solución previsible será la compuesta por:

  • Una máquina de Turing.
  • La información para codificar las reglas de cálculo.
  • La información para codificar la expresión analítica de la solución más simple. En el ejemplo expuesto corresponde a la expresión de la serie de Fibonacci.

Obviamente existen soluciones de complejidad similar o incluso menor, como por ejemplo la realizada por una máquina de Turing que genere de forma periódica la secuencia “0,1,2,3,5,8”. Pero la mayoría de los casos las soluciones tendrán una descripción más compleja, de tal forma que, de acuerdo a la AIT, in la mayoría de los casos su descripción más compacta será la propia secuencia, la cual no podrá ser comprimida ni expresada de forma analítica.

Por ejemplo, se puede comprobar fácilmente que la función:

genera para valores enteros de n la secuencia “0,1,1,2,3,5,8,0,-62,-279,…”, por lo que podría decirse que las cantidades que siguen a la serie propuesta son “…,0,-62,-279,…”. Obviamente,  la complejidad de esta secuencia es ligeramente superior a la de la serie de Fibonacci, como consecuencia de la complejidad de la descripción de la función y de las operaciones a realizar. 

De forma análoga, podemos tratar de definir otros algoritmos que generen la secuencia propuesta, los cuales irán creciendo en complejidad. Esto pone de manifiesto la posibilidad de interpretación de la información desde diferentes puntos de vista que vayan más allá de las soluciones obvias, que están condicionadas por experiencias previas.

Si además de todo lo anterior se considera que, de acuerdo al principio de Landauer, la complejidad informativa tiene asociado un mayor consumo energético, la resolución de problemas complejos no sólo requiere un mayor esfuerzo computacional, sino también un mayor esfuerzo energético.

Esto puede explicar la sensación de satisfacción producida cuando se resuelve un determinado problema, y la tendencia a implicarse en actividades relajantes que se caracterizan por la sencillez o la monotonía. Por el contrario, la falta de respuesta a un problema produce frustración y desasosiego.

Esto contrasta con la idea que generalmente se tiene sobre la inteligencia. Así, la capacidad de resolver problemas como los expuestos se considera un signo de inteligencia. Pero por el contrario la búsqueda de interpretaciones más complejas parece no tener este estatus. Algo similar ocurre con el concepto de entropía, que generalmente se interpreta como desorden o caos y sin embargo desde el punto de vista de la información es una medida de la cantidad de información.

Otro aspecto que se debe destacar es el hecho de que el proceso cognitivo está sustentado por el procesado de información y, por tanto, sujeto a las reglas de la lógica matemática, cuya naturaleza es irrefutable. Es importante esta matización, ya que generalmente se pone énfasis en los mecanismos físicos y biológicos que soportan los procesos cognitivos, pudiendo llegar finalmente a asignarles una naturaleza espiritual o esotérica.

Por tanto, se puede concluir que el proceso cognitivo está sujeto a la naturaleza y estructura del procesado de información y que desde el punto de vista formal de la teoría de la computabilidad corresponde a una máquina de Turing. De tal forma que la naturaleza ha creado una estructura de procesado basada en la física de la realidad emergente –realidad clásica–, materializada en una red neuronal, la cual interpreta la información codificada por los sentidos de acuerdo a la algorítmica establecida por la experiencia previa. Como consecuencia de ello el sistema realiza dos funciones fundamentales:

  • Interactuar con el entorno, produciendo una respuesta a los estímulos recibidos.
  • Potenciar la capacidad de interpretación, adquiriendo nuevas capacidades –algorítmica– como consecuencia de la capacidad de aprendizaje proporcionada por la red neuronal, tal como muestra la figura.  

Pero lo cierto es que los estímulos de entrada están condicionados por los órganos sensoriales, los cuales constituyen un primer filtro de la información y que por tanto condicionan la percepción de la realidad. La pregunta que se puede realizar es: ¿Qué impacto tiene este filtrado en la percepción de la realidad?