La IA hoy: un “cortometraje escrito” en 10 escenas

Por Javier Surasky


Casi sin darnos cuenta, una tarde nos encontramos con que, en lugar de buscar en Google lo que queríamos saber, estábamos hablando con una IA que no solo nos respondía, sino que razonaba, traducía, resumía, proponía nuevos enfoques. No fue magia, como podía parecer a quien se sentaba por primera vez frente a uno de los nuevos modelos de lenguaje: fue el resultado de más de setenta años de decisiones técnicas, científicas y políticas que, en conjunto, narran un trayecto apasionante, que no ha quedado libre de reveses ni de contradicciones.

Como un cortometraje escrito, esta historia puede ser narrada a través de diez escenas cortas, en las cuales hay dos cameos que sorprenden cuando los encontramos. Una historia para leer de un tirón y entender por qué estamos exactamente aquí.

Escena 1. Turing cambia la pregunta

Año 1950

Contexto: post Segunda Guerra Mundial, Las Naciones Unidas recién habían sido creadas pero la Guerra Fría dividía al mundo

Involucrado en la inteligencia británica más por su obsesión por resolver enigmas que por amor a la patria, Alan Turing propone dejar de discutir si una máquina “piensa” y pasar a un criterio observable: si en una conversación no es posible distinguir a un humano de una máquina, algo importante está ocurriendo. Nace el “juego de imitación”, y con él un primer lenguaje de métricas para hablar de inteligencia artificial en términos verificables. El campo todavía no tiene nombre, pero ya tiene su horizonte.

Primer cameo: en 1956 se reúne el “Taller de Dartmouth” que le da nombre a lo que hoy llamamos IA y crea la primera comunidad internacional de científicos trabajando en ese campo. SI Turing puso el ladrillo inicial de este edificio, Dartmouth trajo a los trabajadores que comenzaron la obra.


Escena 2: Aprender de los errores

Año 1986

Contexto: son tiempos de Reagan y Thatcher en el poder, mientras que se firma el Tratado de Schengen de libre movilidad europea y América Latina vive la transición democrática.

La retropropagación hace práctico el entrenamiento de redes: la máquina se equivoca, mide cuánto, corrige y vuelve a intentar. Es el “sistema de devolución” que faltaba. Un viaje computacional/algorítmico que les permite a las máquinas mirar hacia atrás para construir hacia adelante, de la mano de Rumelhart, Hinton y Williams, se logra ahora entrenar redes profundas de manera eficiente.


Escena 3: Memoria y contexto

Año 1997

Contexto: es un tiempo de contradicciones. Ha caído el muro de Berlín y el mundo se alinea bajo el “pensamiento único” cuando Europa firma el Tratado de Maastricht que crea la UE y fija el camino al euro. Mandela se convierte en presidente de Sudáfrica mientras en Ruanda se comete un genocidio, nace el ejército zapatista en México y se firman los Acuerdos de Oslo entre Israel y la OLP. Nace la OMC y estalla una crisis financiera en Asia

Las LSTM (Long Short-Term Memory) ponen una libreta en la mochila de la IA cargada de compuertas y celdas de memoria que permiten recordar lo relevante en secuencias largas (texto, voz, series) dando fin al problema del desvanecimiento del gradiente, Algo así como el juego en que en una fila cada uno susurra algo a quien tiene delante y esa persona debe repetir lo que entendió al que sigue hasta que al final el mensaje llega muy distorsionado le pasaba a la retropropagación, por lo que se perdía mucho del aprendizaje en la gestión interna del sistema. Con las LSTM esto ya no ocurrirá más.


Escena 4: Ver para entender

Año 2012.

Contexto: aunque la IA sigue siendo algo para pocos, el término suena un poco aterrador, pero comienza a extenderse entre la gente. En esos años, el mundo todavía siente los fuertes coletazos de la crisis financiera de 2008. Entra en vigor el Tratado de Lisboa de la UE y un terremoto deja a Haití en ruinas, mientras. Leemos asombrados la información que se filtra en el Wikileaks. Vemos pasar la primavera árabe como un suspiro y a los países reuniéndose en la Conferencia de Río+20.

Con AlexNet, la combinación de muchas imágenes, GPU y algoritmos no lineales y la aumentación de datos se quiebra el techo de desempeño en el campo de visión por computador. Lo que era una promesa y una búsqueda deviene en una realidad. Los errores de “visión” se minimizan y las máquinas empiezan a describir lo que ven casi sin equivocarse.


Escena 5: El significado habla el lenguaje de la geometría y el álgebra

Año 2013-2014.

Contexto: el contexto no ha cambiado mucho desde la escena anterior, pero tenemos un nuevo Papa (Francisco), China crea el proyecto político de la Franja y la Ruta, Rusia se anexa Crimea, crece la amenaza del ISIS y “desaparece” en Malasia el vuelo MH370.

Los embeddings, representaciones de palabras y conceptos mediante vectores de números que se distribuyen a lo largo de un “espacio” de trabajo y forman un “mapa” con sus posiciones en el que las distancias codifican sentidos: rey está tan cerca de hombre como de reina, pero reina está más cerca de mujer que de hombre, mientras que “astronauta” está equidistante entre hombre y mujer. Estamos ante la representación distribuida y dibujar buenos mapas y medidas de agrupamiento y distancia se vuelve el corazón del juego.


Escena 6: ¡Big Data!

Año 2015

Contexto: el mundo se reúne para lograr consensos en torno a prioridades de desarrollo e intentar enfrentar el avance del cambio climático. Nacen la Agenda 2030 para el desarrollo sostenible, el Acuerdo de París de lucha contra el cambio climático y la Agenda de Addis Abeba sobre financiación del desarrollo.

En el marco de los trabajos de construcción de la Agenda 2030, se publica el informe “Un mundo que cuenta” (A World That Counts) que instala, en clave multilateral, que los datos son infraestructura del desarrollo: las referencias al Big Data y la “revolución de datos” se hacen parte del debate internacional político, y no solo entre especialistas en tecnologías.


Segundo cameo: en 2016 surge el Federated Learning, que básicamente se explica como colaborar sin extraer, aprender sin mover los datos, lo que refuerza no solo la privacidad que requieren sitios como hospitales o bancos, sino que trae al debate los conceptos de soberanía de datos y cooperación digital.


Escena 7: Atención es todo lo que se necesita

Año 2017.

Contexto: El Brexit en marcha, a Trump gana su primer mandato como presidente de los Estados Unidos, se aprueba un frágil Acuerdo de Paz en Colombia y estalla el escándalo de los “Panama Papers”

Se publica un artículo que lleva por título el nombre de esta escena, firmado por un grupo de ocho investigadores de Google Brain y Google Research, que propone una nueva forma de trabajo para redes y un algoritmo de atención que logra paralelizar los procesos del entrenamiento de redes (hasta ahora secuenciales, por lo que llevaban más tiempo y esfuerzo). El nuevo proceso captura dependencias de largo plazo y aporta estabilidad. No todo lo que se puede aprender tiene la misma importancia y el contexto es clave: ideas que dan nacimiento a las redes Transformer, la bisagra arquitectónica de la IA que nos trae a sus formas actuales.


Escena 8: La IA se pone conversadora

Años 2018-2023.

Contexto: se ha iniciado la guerra comercial entre Estados Unidos y China, se cierra el acuerdo por el Brexit y nacen los “chalecos amarillos” en Francia mientras Bolsonaro llega a la presidencia de Brasil. Por encima de todo, son tiempos de la pandemia de COVID-19 y, a poco de salir de esa pesadilla global, Rusia lanza su invasión sobre Ucrania. En nuestro tema de atención, la IA generativa se posiciona, por primera vez, en el centro de la agenda pública y regulatoria.

En 2018, Google presentó “BERT”, un modelo de lenguaje que “entiende” el contexto completo de las palabras leyendo a la vez lo que viene antes y lo que viene después de cada una de ellas. Ahora la IA capta matices de lenguaje, ironías o dobles sentidos. Este logro da el impulso final que necesitaban los grandes modelos del lenguaje (LLMs) y aparecen los modelos GPT (Generative Pretrained Transformer). Los modelos Transforme de los que hablamos antes se unen a los avances de BERT y la IA nos habla en nuestro propio lenguaje, lo que impulsa a que su uso se vuelva masivo.


Escena 9: Ciencia dura, impacto real y premio Nobel

Años 2020–2021.

Contexto: seguimos con el mismo trasfondo que en la escena anterior

Una IA logra lo que parecía imposible: AlphaFold2 predice estructuras de proteínas con precisión cercana a la de laboratorio y libera un atlas global. La IA demuestra que no sólo clasifica fotos: acelera descubrimientos y cambia rutinas científicas. Los creadores de AlphaFold ganarán el premio Nobel por los avances que permitieron realizar este programa.


Escena 10: La primera ley integral sobre IA

Años 2024–2025

Contexto: nuestro tiempo. Trump asume su segundo mandato en Estados Unidos. La guerra en Ucrania continúa. Israel se lanza sobre Gaza tras una acción de Hamás que termina en una toma de rehenes y asesinatos de decenas de ciudadanos israelíes dentro de su propio país. Los BRICS se amplían incluyendo a Egipto, Etiopía, Irán y los Emiratos Árabes Unidos. En medio de un multilateralismo debilitado, la ONU realiza la Cumbre del Futuro que adopta, entre otros documentos, el Pacto Digital Global.

Ya con una abierta confrontación entre modelos de gobernanza representados por Estados Unidos (libre mercado) y China (centralidad estatal) en sus extremos, la UE, en una posición basada en buscar equilibrios entre avances de la IA y protección de derechos, adopta la primera ley general sobre IA del mundo: la EU AI Act haciendo del nivel de riesgo de los sistemas de IA el eje de su regulación.

 

Títulos finales:

Lejos de ser un “museo histórico de hechos y logros en materia de IA”, este cortometraje escrito es un mapa de fuerzas que siguen actuando: Turing dio el puntapié inicial, la retropropagación y LSTM nos ayudaron en el oficio de aprender a enseñar a las máquinas, AlexNet nos mostró la importancia de mejorar la calidad de la captura de datos por las máquinas y los embeddings aumentaron su capacidad de comprender sistemas complejos, y el mundo estalló en datos. Los Transformer siguieron aportando mejoras a la capacidad de entrenamiento y acortaron los plazos de trabajo, logrando resultados superadores, y los grandes modelos de lenguaje se subieron a espaldas de esas estructuras y masificaron la IA. No pasó mucho hasta que AlphaFold2 probó el valor científico de estos avances y el AI Act puso las primeras reglas del juego obligatorias para, al menos, un conjunto de países.

En la IA ni todo es nuevo, ni nada cambió, ni sabemos cuál será el siguiente paso, y eso la convierte en un espacio apasionante, innovativo y desafiante. Antes de tenerle miedo o defenderla, es importante comprenderla.

Como alguna vez lo hemos dicho, la inteligencia no es sólo lo que hay dentro de una cabeza (o una máquina), sino lo que surge en el espacio entre ellas.