Por Javier Surasky
Casi sin darnos cuenta, una tarde nos encontramos con que, en lugar de buscar en Google lo que queríamos saber, estábamos hablando con una IA que no solo nos respondía, sino que razonaba, traducía, resumía, proponía nuevos enfoques. No fue magia, como podía parecer a quien se sentaba por primera vez frente a uno de los nuevos modelos de lenguaje: fue el resultado de más de setenta años de decisiones técnicas, científicas y políticas que, en conjunto, narran un trayecto apasionante, que no ha quedado libre de reveses ni de contradicciones.
Como un cortometraje escrito, esta historia puede ser
narrada a través de diez escenas cortas, en las cuales hay dos cameos que
sorprenden cuando los encontramos. Una historia para leer de un tirón y
entender por qué estamos exactamente aquí.
Escena 1. Turing cambia la pregunta
Año 1950
Contexto: post Segunda Guerra Mundial, Las Naciones
Unidas recién habían sido creadas pero la Guerra Fría dividía al mundo
Involucrado en la inteligencia británica más por su obsesión
por resolver enigmas que por amor a la patria, Alan Turing propone dejar de
discutir si una máquina “piensa” y pasar a un criterio observable: si en una
conversación no es posible distinguir a un humano de una máquina, algo
importante está ocurriendo. Nace el “juego de imitación”, y con él un primer
lenguaje de métricas para hablar de inteligencia artificial en términos
verificables. El campo todavía no tiene nombre, pero ya tiene su horizonte.
Primer cameo: en 1956 se reúne el “Taller
de Dartmouth” que le da nombre a lo que hoy llamamos IA y crea la primera
comunidad internacional de científicos trabajando en ese campo. SI Turing puso
el ladrillo inicial de este edificio, Dartmouth trajo a los trabajadores que
comenzaron la obra.
Escena 2: Aprender de los errores
Año 1986
Contexto: son tiempos de Reagan y Thatcher en el
poder, mientras que se firma el Tratado de Schengen de libre movilidad europea
y América Latina vive la transición democrática.
La retropropagación hace práctico el entrenamiento de
redes: la máquina se equivoca, mide cuánto, corrige y vuelve a intentar. Es el
“sistema de devolución” que faltaba. Un viaje computacional/algorítmico que les
permite a las máquinas mirar hacia atrás para construir hacia adelante, de la
mano de Rumelhart, Hinton y Williams, se logra ahora entrenar redes profundas
de manera eficiente.
Escena 3: Memoria y contexto
Año 1997
Contexto: es un tiempo de contradicciones. Ha caído
el muro de Berlín y el mundo se alinea bajo el “pensamiento único” cuando Europa
firma el Tratado de Maastricht que crea la UE y fija el camino al euro. Mandela
se convierte en presidente de Sudáfrica mientras en Ruanda se comete un
genocidio, nace el ejército zapatista en México y se firman los Acuerdos de
Oslo entre Israel y la OLP. Nace la OMC y estalla una crisis financiera en Asia
Las LSTM (Long Short-Term Memory) ponen una
libreta en la mochila de la IA cargada de compuertas y celdas de memoria que
permiten recordar lo relevante en secuencias largas (texto, voz, series)
dando fin al problema del desvanecimiento del gradiente, Algo así como el juego
en que en una fila cada uno susurra algo a quien tiene delante y esa persona
debe repetir lo que entendió al que sigue hasta que al final el mensaje llega
muy distorsionado le pasaba a la retropropagación, por lo que se perdía mucho
del aprendizaje en la gestión interna del sistema. Con las LSTM esto ya no
ocurrirá más.
Escena 4: Ver para entender
Año 2012.
Contexto: aunque la IA sigue siendo algo para pocos,
el término suena un poco aterrador, pero comienza a extenderse entre la gente.
En esos años, el mundo todavía siente los fuertes coletazos de la crisis
financiera de 2008. Entra en vigor el Tratado de Lisboa de la UE y un terremoto
deja a Haití en ruinas, mientras. Leemos asombrados la información que se
filtra en el Wikileaks. Vemos pasar la primavera árabe como un suspiro y a los países
reuniéndose en la Conferencia de Río+20.
Con AlexNet, la combinación de muchas imágenes, GPU y
algoritmos no lineales y la aumentación de datos se quiebra el techo de
desempeño en el campo de visión por computador. Lo que era una promesa y una
búsqueda deviene en una realidad. Los errores de “visión” se minimizan y las
máquinas empiezan a describir lo que ven casi sin equivocarse.
Escena 5: El significado habla el lenguaje de la geometría
y el álgebra
Año 2013-2014.
Contexto: el contexto
no ha cambiado mucho desde la escena anterior, pero tenemos un nuevo Papa
(Francisco), China crea el proyecto político de la Franja y la Ruta, Rusia se
anexa Crimea, crece la amenaza del ISIS y “desaparece” en Malasia el vuelo
MH370.
Los embeddings, representaciones de palabras y
conceptos mediante vectores de números que se distribuyen a lo largo de un
“espacio” de trabajo y forman un “mapa” con sus posiciones en el que
las distancias codifican sentidos: rey está tan cerca de hombre como de
reina, pero reina está más cerca de mujer que de hombre, mientras que
“astronauta” está equidistante entre hombre y mujer. Estamos ante la representación
distribuida y dibujar buenos mapas y medidas de agrupamiento y distancia se
vuelve el corazón del juego.
Escena 6: ¡Big Data!
Año 2015
Contexto: el mundo se reúne para lograr consensos en
torno a prioridades de desarrollo e intentar enfrentar el avance del cambio
climático. Nacen la Agenda 2030 para el desarrollo sostenible, el Acuerdo de
París de lucha contra el cambio climático y la Agenda de Addis Abeba sobre
financiación del desarrollo.
En el marco de los trabajos de construcción de la Agenda
2030, se publica el informe “Un mundo que cuenta” (A World That Counts) que instala,
en clave multilateral, que los datos son infraestructura del desarrollo: las
referencias al Big Data y la “revolución de datos” se hacen parte
del debate internacional político, y no solo entre especialistas en tecnologías.
Segundo cameo: en 2016 surge el Federated
Learning, que básicamente se explica como colaborar sin extraer, aprender
sin mover los datos, lo que refuerza no solo la privacidad que requieren sitios
como hospitales o bancos, sino que trae al debate los conceptos de soberanía de
datos y cooperación digital.
Escena 7: Atención es todo lo que se necesita
Año 2017.
Contexto: El Brexit en marcha, a Trump gana su primer
mandato como presidente de los Estados Unidos, se aprueba un frágil Acuerdo de
Paz en Colombia y estalla el escándalo de los “Panama Papers”
Se publica un artículo que lleva por título el nombre de
esta escena, firmado por un grupo de ocho investigadores de Google Brain y
Google Research, que propone una nueva forma de trabajo para redes y un
algoritmo de atención que logra paralelizar los procesos del entrenamiento de
redes (hasta ahora secuenciales, por lo que llevaban más tiempo y esfuerzo). El
nuevo proceso captura dependencias de largo plazo y aporta estabilidad. No todo
lo que se puede aprender tiene la misma importancia y el contexto es clave:
ideas que dan nacimiento a las redes Transformer, la bisagra arquitectónica
de la IA que nos trae a sus formas actuales.
Escena 8: La IA se pone conversadora
Años 2018-2023.
Contexto: se ha
iniciado la guerra comercial entre Estados Unidos y China, se cierra el acuerdo
por el Brexit y nacen los “chalecos amarillos” en Francia mientras Bolsonaro llega
a la presidencia de Brasil. Por encima de todo, son tiempos de la pandemia de COVID-19
y, a poco de salir de esa pesadilla global, Rusia lanza su invasión sobre
Ucrania. En nuestro tema de atención, la IA generativa se posiciona, por
primera vez, en el centro de la agenda pública y regulatoria.
En 2018, Google presentó “BERT”, un modelo de lenguaje que “entiende”
el contexto completo de las palabras leyendo a la vez lo que viene antes y lo
que viene después de cada una de ellas. Ahora la IA capta matices de lenguaje,
ironías o dobles sentidos. Este logro da el impulso final que necesitaban los
grandes modelos del lenguaje (LLMs) y aparecen los modelos GPT (Generative
Pretrained Transformer). Los modelos Transforme de los que hablamos antes se
unen a los avances de BERT y la IA nos habla en nuestro propio
lenguaje, lo que impulsa a que su uso se vuelva masivo.
Escena 9: Ciencia dura, impacto real y premio Nobel
Años 2020–2021.
Contexto: seguimos con el mismo trasfondo que en la
escena anterior
Una IA logra lo que parecía imposible: AlphaFold2
predice estructuras de proteínas con precisión cercana a la de laboratorio y libera
un atlas global. La IA demuestra que no sólo clasifica fotos: acelera
descubrimientos y cambia rutinas científicas. Los creadores de AlphaFold
ganarán el premio Nobel por los avances que permitieron realizar este programa.
Escena 10: La primera ley integral sobre IA
Años 2024–2025
Contexto: nuestro tiempo. Trump asume su segundo
mandato en Estados Unidos. La guerra en Ucrania continúa. Israel se lanza sobre
Gaza tras una acción de Hamás que termina en una toma de rehenes y asesinatos
de decenas de ciudadanos israelíes dentro de su propio país. Los BRICS se
amplían incluyendo a Egipto, Etiopía, Irán y los Emiratos Árabes Unidos. En
medio de un multilateralismo debilitado, la ONU realiza la Cumbre del Futuro
que adopta, entre otros documentos, el Pacto Digital Global.
Ya con una abierta confrontación entre modelos de gobernanza
representados por Estados Unidos (libre mercado) y China (centralidad estatal)
en sus extremos, la UE, en una posición basada en buscar equilibrios entre
avances de la IA y protección de derechos, adopta la primera ley general sobre
IA del mundo: la EU AI Act haciendo del nivel de riesgo de los sistemas
de IA el eje de su regulación.
Títulos finales:
Lejos de ser un “museo histórico
de hechos y logros en materia de IA”, este cortometraje escrito es un mapa
de fuerzas que siguen actuando: Turing dio el puntapié inicial, la
retropropagación y LSTM nos ayudaron en el oficio de aprender a enseñar a las
máquinas, AlexNet nos mostró la importancia de mejorar la calidad de la captura
de datos por las máquinas y los embeddings aumentaron su capacidad de
comprender sistemas complejos, y el mundo estalló en datos. Los Transformer siguieron
aportando mejoras a la capacidad de entrenamiento y acortaron los plazos de
trabajo, logrando resultados superadores, y los grandes modelos de lenguaje se
subieron a espaldas de esas estructuras y masificaron la IA. No pasó mucho
hasta que AlphaFold2 probó el valor científico de estos avances y el AI Act
puso las primeras reglas del juego obligatorias para, al menos, un conjunto de
países.
En la IA ni todo es nuevo, ni nada cambió, ni sabemos cuál
será el siguiente paso, y eso la convierte en un espacio apasionante,
innovativo y desafiante. Antes de tenerle miedo o defenderla, es importante
comprenderla.
Como alguna vez lo hemos dicho, la inteligencia no es sólo
lo que hay dentro de una cabeza (o una máquina), sino lo que surge en el espacio
entre ellas.
