Del animal a la Inteligencia Artificial: una transmutación del lenguaje

Tatiana Lozano
Dossier

¿Qué significan las nuevas herramientas de la Inteligencia Artificial para el lenguaje y la escritura humanos? En este ensayo Tatiana Lozano hace un recorrido por las distintas formas en que las palabras se mueven y generan movimiento: desde la corporalidad del lenguaje humano y los demás soportes materiales en donde descansa, hasta los traslados del sentido que pueden ocurrir entre una lectora humana y una inteligencia artificial que domina la escritura. 

«Hola, mundo». Cuando leo esas palabras en voz baja, mi lengua hace movimientos diminutos que se perciben de manera especial con las consonantes: la ele se pasea por el paladar y la enedé llega hasta los dientes. Si las leo en voz alta mis cuerdas vocales vibran, mi diafragma se mueve y la voz sube hasta la boca por mi garganta. Transformo el aire en sonidos y así respiro palabras. Exhalo vocales. En mi mente, las palabras pensadas provocan esos movimientos en una escala microscópica o quizá imaginaria, pero un movimiento imaginario es movimiento, a fin de cuentas. La vida de las palabras sucede en el cuerpo y a causa de él. 

Se dice que las primeras palabras del internet fueron «hello, world». Algo más complejo que los primeros balbuceos con los que los humanos estrenamos la voz. Los programadores que le dieron sus primeras palabras al internet sintieron todo eso en su cuerpo, además del movimiento que sacó esa voz pasando por sus brazos y sus dedos hasta llegar a las teclas. Desde entonces hemos alimentado el internet con todas nuestras palabras. Y él, de alguna manera, ha aprendido a hablar con ellas. 

Escribí algunos verbos sobre lo que hace una inteligencia artificial en cursivas porque se usan de manera equívoca, aunque no necesariamente equivocada. Un programa no aprende como aprende una niña que escucha, observa, siente, pregunta, no entiende, se frustra, vuelve a escuchar, comprende y luego propone. En su lugar, el programa es una serie de reglas que integra otras reglas, conoce sus objetivos y ajusta sus recursos disponibles hacia los objetivos que le planteó una programadora (casi siempre) humana.

La niña también es «programada» por humanos, pero ella no tiene objetivos tan específicos: se confunde, siente curiosidad, imagina, se equivoca. En cuanto a sus resultados y las palabras que tenemos para describir lo que hacen, el programa y la niña no hacen cosas tan distintas. Las diferencias significativas están en los procesos y las maneras en que lo experimentan: una lo vive y lo siente en su cuerpo, el otro simplemente lo ejecuta. 

Con la escritura, los humanos convertimos nuestro lenguaje, que es el lenguaje de un cuerpo sintiente, en un cuerpo de texto, que es texto hecho un cuerpo insensible que, en lugar de órganos tiene garabatos. En el proceso de la escritura nuestras palabras se mueven desde la mente hacia la mano que lo escribe. Escribir desde un cuerpo humano es transformar los movimientos diminutos o imaginarios de las palabras pensadas en movimientos reales de los dedos y las muñecas para convertir esas palabras en imágenes pintadas por el lápiz o las teclas. 

Una vez que las palabras se libran de nuestro cuerpo y forman el suyo propio en un texto, cualquier cosa puede suceder. Con estos movimientos, las palabras cambian de piel o de plumaje. Llevamos siglos dándoles cuerpos independientes en los textos y hogares en los libros. Hasta hace muy poco, los textos siempre se sostenían según el hilo del pensamiento de una mente humana. Se podía rastrear a la persona que había encadenado a las palabras de una u otra manera: había una culpable. Ahora que las máquinas escriben, las palabras se pueden concatenar en combinaciones infinitas según las reglas más comunes de la secuencia. 

La inteligencia humana era la única capaz de hilar palabras y tejer ideas con ellas. Hoy la inteligencia artificial —o mejor: ciertos programas computacionales— son capaces de leer en voz baja e incluso logran escribir. Hasta hace muy poco, las computadoras eran pésimas escritoras, ahora, quizá escriban mejor que la mayoría de las personas. Pero ésta no es una competencia justa. Hacemos lo mismo, aunque de maneras sustancialmente distintas. 

El escritor artificial más aclamado del momento se llama ChatGPT, un chatbot basado en el GPT-3.5 (Generative Pre-trained Transformer). Se trata de un modelo grande de lenguaje natural (LLM, Large Language Model) que fue entrenado para construir secuencias coherentes de palabras y lo hace muy bien porque no sólo es coherente, sino que logra escribir párrafos interesantes e incluso bellos. El GPT-3, su predecesor, fue entrenado con más de 570 GB de texto —una gran biblioteca de libros y una buena cantidad de lo que está publicado en internet— y su objetivo es adivinar las palabras que se seguirían para construir una respuesta a una pregunta o una sugerencia de temas. Su objetivo es reconstruir con distintas palabras las estructuras de los textos que conoce. En ese camino, desarrolla ideas interesantes.  

Si el GPT-3 fuera una persona, diríamos que leyó —o lee— una biblioteca gigantesca: todos los clásicos de la literatura y de la ciencia, todo el chisme del internet y las redes sociales, múltiples recetas de cocina, instructivos, opiniones, teoría política, filosofía, poesía, canciones, etcétera. Sin duda, el GPT-3 es el lector más voraz de la historia y el único con una memoria perfecta. Para aprender a escribir, juega a adivinar qué palabra le hace falta a una oración, qué texto seguiría según los patrones de todo lo que ha leído. Busca piezas para armar un rompecabezas. Si le decimos «no me gustan los días ____», primero adivinará algo que quizá no tenga mucho sentido: «no me gustan los días grasosos». Después de algunos intentos, el GPT-3 escribirá «no me gustan los días lluviosos porque me impiden sacar a pasear a mi perro» o algo más coherente, aleatorio o bello. Cada que el GPT-3 nos da una respuesta, si es adecuada, refuerza su aprendizaje sobre los procesos que le llevaron a ese resultado y si es errónea olvida los caminos que le llevaron a equivocarse.1 Es el estudiante más aplicado.2

El proceso de «aprendizaje profundo» (deep learning) del GPT-3 consiste en un entrenamiento de redes neuronales —una imitación de la estructura de las conexiones neuronales del cerebro humano— que luego de muchos intentos aprende a identificar los patrones dentro de los cuerpos de texto. Estas redes neuronales funcionan por medio de capas interconectadas que alcanzan niveles de abstracción cada vez mayores. Para ilustrarlo, podemos imaginar una capa que capturaría la distribución de los adjetivos y se conectaría con otra capa que mapearía el orden estructural de la oración y así para una cantidad gigantesca de parámetros. Con el trabajo de muchas capas interconectadas el programa aprende a identificar los patrones dentro del texto y fortalece las conexiones neuronales adecuadas para ello a la vez que debilita las conexiones que han ocasionado intentos fallidos. Así refuerza su aprendizaje. Aprende las conexiones aleatorias que le dan resultados positivos y olvida las demás conexiones —también aleatorias—. Es un juego de probabilidades y el camino para resolverlo pasa por lo aleatorio. 

Recordemos que el GPT-3 no tiene pies ni cabeza, así que no se cansa de entrenar. Además, es muy perseverante, hace muchísimas pruebas a la vez y no para de aprender. Al cabo de un tiempo, el GPT-3 es capaz de escribir artículos, reportes, ensayos y demás textos interesantes, bellos y, en ocasiones, indistinguibles de los que escribirían sus colegas humanos. Logra escribir, no porque le surjan ideas novedosas a partir de lo que ha leído y tampoco porque sea un maestro del copia y pega. Hace algo intermedio o quizá por encima de esas dos opciones. Va por el camino difícil. Genera operaciones estadísticas muy sofisticadas que estiman la probabilidad de que una palabra (token) le siga a otra de acuerdo con los patrones de secuencia del resto de las palabras que conforman ese cuerpo de texto y a los textos en general. Es un maestro de la estructura de los textos, de la sintaxis. 

El GPT-3 es uno de muchos modelos grandes de lenguaje, pero a diferencia de sus predecesores tiene mayor poder computacional: técnicas matemáticas más sofisticadas que le han permitido ingerir más datos y emplear capas más profundas de redes neuronales para entrenar.3 Todos estos modelos emiten predicciones aleatorias y con base en sus resultados aprenden a mejorar las predicciones. Al final del camino, las mejores predicciones son las que construyen el discurso más coherente. 

Los programas computacionales que escriben desde la incorporeidad y, por lo tanto, sin una mente, evocan la imagen del Teorema de los monos infinitos. En este escenario, un mono tecleando letras al azar en un tiempo infinito redactaría un texto legible y, en algún punto, escribiría las grandes obras de la literatura. A pesar de que los monos tienen cuerpos y mentes, los que imaginamos para el Teorema de los monos infinitos la tienen más difícil que el GPT-3, ellos tendrían que reconstruir todo el lenguaje desde la letra individual sin conocimiento alguno de la sintaxis. Por eso necesitan un tiempo infinito. En cambio, el programa que escribe es un conjunto de reglas expresadas en un lenguaje (formal, computacional) que modela cómo se distribuyen las probabilidades de secuencia de las palabras en cada contexto. Se trata de lenguaje que mapea lenguaje para reproducirlo. 

El programa computacional no es como el mono que teclea letras sin pensar, él ya tiene palabras, ya es un escritor. El plumaje del GPT-3 lo aproxima más a un loro estocástico (stochastic parrot) que a los monos infinitos. Los loros repiten las palabras que conocen sin un sentido determinado, no construyen oraciones creativas y coherentes, más bien parece que combinan aleatoriamente las palabras de su vocabulario. Los modelos de lenguaje hacen lo mismo pero su vocabulario y conocimiento de la sintaxis son tan amplios que logran escribir oraciones creativas y coherentes.4

No estoy segura de lo que quiera decir la expresión «navegar en el texto», pero, a simple vista me parece que eso es lo que hace el GPT-3. No se sumerge en el texto, lo navega. No tiene piel para absorber las palabras, pero tiene una brújula muy precisa que le permite identificar las coordenadas de una palabra en relación con las demás y eso para cada una de ellas. Quizá para el GPT-3 las palabras son algo que ocupa un espacio, son un lugar, son los nodos de una red, son elementos y sus relaciones. Ellas son todo eso. 

Cuando especulo sobre lo que podrían ser las palabras para un programa computacional recuerdo la angustia que sentí de niña cuando caí en cuenta de que ya no podía ver una palabra como imagen. Había aprendido a leer y leía cualquier palabra capturada por mis ojos en automático como texto. Ya no había imágenes curiosas en los letreros de las calles: todo eran nombres, todo era información. Los colores y las formas de las letras no importaban. El mundo estaba lleno de palabras que me obligaban a leerlas. No les bastaba entrar por mis oídos, ahora se me colaban por los ojos. Desde la vista y el oído demandaban atención a sus signos y significados. Donde antes había figuras ahora encontraba palabras capaces de referir a muchas cosas. Un letrero en una puerta que decía «Prohibido estacionarse, se usará grúa» daba información muy precisa y cambiaba las posibilidades imaginativas de la pura grafía. Sin darme cuenta, comenzaba a identificar los superpoderes de las palabras: el sentido y el significado. Quizá el GPT-3 es un niño que todavía ve imágenes en el lugar de las palabras. 

Es imposible conocer cómo experimenta un programa computacional sus palabras. Quizá no exista tal experiencia más allá de nuestros mejores ejercicios imaginativos. Me cuesta concebir la vida de sus palabras porque las mías viven en mi cuerpo y él no tiene un cuerpo capaz de respirar palabras. En lugar del cuerpo, él tiene —o es— procesos. Si cuando yo leo o escribo, además de los movimientos corporales experimento un significado en cada expresión, una referencia en cada palabra y un sentido en la idea general; el GPT-3 identifica tokens unidos entre sí con cierta frecuencia, similitudes entre grupos de tokens, distintas maneras de concatenar determinados tipos de tokens. Es como si jugara con fichas de colores y reconociera patrones para ordenarlos según ciertos ejemplos de orden común. 

A partir de estrategias distintas una máquina incorpórea logra resultados indistinguibles de lo que escribiría una persona. Parece arte de magia. Son el arte y la magia de las palabras que permiten infinitas combinaciones adecuadas que una inteligencia artificial es capaz de identificar. Dudo que la magia esté en las capacidades técnicas o en el desarrollo de herramientas de la inteligencia artificial que logran análisis estadísticos muy precisos sobre el lenguaje y un uso sofisticado de sus resultados. La magia, más bien, estaría en las palabras, en el significado que aparentemente se escapa del alcance de la máquina. La posibilidad de descomponer y recomponer el lenguaje a partir de la mera sintaxis, el puro uso de la estructura gramatical ilustra poco más allá del hecho de que nuestras palabras descansan sobre una estructura sintáctica bastante sólida y de que las palabras ofrecen caudales de significado. 

Pasamos del lenguaje como esa herramienta creada por las entrañas humanas para comunicar y expresar necesidades y emociones, al lenguaje convertido en texto por escritoras humanas y así hasta llegar a la posibilidad de que todo ese texto escrito se reordenara en combinaciones infinitas según una máquina lingüística. Cuando llegamos a la completa abstracción de las palabras que provenían de un cuerpo, el lenguaje no necesita de una mente para subsistir. Este es el paso de la cibernética que separa la información de los cuerpos que la experimentan.

Una vez que la información puede abstraerse del cuerpo y que ella sola puede recrearse por medio de estos procesos computacionales complejísimos, se podría decir que hay información y lenguaje humanos fuera de los animales lingüísticos por excelencia. Quizá eso no ocurra con el sentido y el significado, que más bien parecen encarnados: viven en nuestra piel. Allí es donde el lenguaje cobra vida después de su mera subsistencia. Sentido y significado pasan de la carne de un animal lingüístico que respira palabras, al plumaje indiferente de la letra escrita —un color sobre el papel o la pantalla— para revivir en la piel de un animal lingüístico que comprenda su significado. 

Por medio de estos movimientos, la palabra se desencarna, se abstrae y vuelve a una piel para ser nuevamente desencarnada. No es la primera vez que lo hace. Más bien, para ella, lo propio es desencarnarse, desmaterializarse. Desde que el lenguaje pretende convertir en signo a un objeto real del mundo, la palabra pronunciada por una carne es ya lo incorpóreo, lo inmaterial. El significado, entendido como la distancia entre la palabra y su objeto, ya había marcado una ruptura fundamental entre lo material y lo inmaterial. Desde entonces, la referencia vuela libre, sin el peso de un cuerpo. La palabra es una tensión entre los cuerpos que la animan y su naturaleza incorpórea: necesita de un cuerpo para vivir y, sin él, ella es sólo una ficha. 

El lenguaje es nuestro medio de conexión con la realidad, es lo que nos permite asir los objetos del mundo: explorarlos, comprenderlos, jugar con sus posibilidades. Para los humanos, el lenguaje es inteligibilidad. Es más que eso. Nuestros cuerpos se vinculan afectivamente con el lenguaje y por medio de él. El lenguaje entra por nuestros sentidos y luego lo exhalamos: en cada paso sentimos su presencia. Lo sentimos y lo usamos para hacer sentir y compartir un sentido. Así nos relacionamos lingüísticamente con nuestro entorno social, con todos los otros cuerpos lingüísticos. Las palabras unen cuerpos. La palabra es comunidad. 

Cuando leemos algo complejo, bello o terrorífico escrito por una máquina, tenemos la impresión de que hay comprensión y voluntad detrás de esas palabras. Eso ya no es necesario. La máquina que lee y escribe muy bien es sólo una herramienta poderosa para usar los elementos que componen al lenguaje en su resultado concreto: la escritura. Los cuerpos de la máquina —conjuntos de cables, unidades de almacenamiento, baterías— son cuerpos indiferentes al lenguaje. Nuestros cuerpos orgánicos sienten el impacto de la palabra pronunciada, leída o escuchada, respiran y vivifican a las palabras; los cuerpos de las máquinas las reordenan como fichas. 

Nos cuesta comprender que algo que usa las palabras como fichas e ignora su sentido logre construir ideas significativas. Pero el trabajo del sentido lo hacen las palabras, la sintaxis y la mente humana que lee. Las palabras son tan poderosas y fascinantes que pueden ser tomadas como fichas por un autor sin mente y en el proceso de reordenarlas adecuadamente nos da ficción, poesía y hasta indicios de intención. Una máquina puede hacer arte con sus palabras sin ser ella una artista, sin ninguna comprensión de las metáforas que esconden sus palabras; sólo necesita de una mente externa que le dé sentido a lo escrito.

La máquina que escribe es un nuevo movimiento del lenguaje entre sus orígenes corpóreos, su realidad inmaterial y su concreción significativa. Este nuevo movimiento es un giro complejo que ahora trastoca a la autora y, así, cambia nuestras ideas generales sobre lo que comprendemos y le atribuimos al lenguaje como una facultad humana. También cambia nuestra concepción de lo humano. El lenguaje escrito ya no es algo exclusivamente humano, aunque su significado y su valor estético quizá sí lo sigan siendo. Ya no se requiere de una mente creativa y una voluntad para escribir; esas sólo son necesarias para darle sentido y vida a lo escrito. El lenguaje, cuando proviene de un agente artificial adquiere nuevas facetas y abre nuevas posibilidades de comprensión y de creación.

Ilustración de una monotipia (teclado y rueda) obtenida en Letterpress Commons https://letterpresscommons.com/monotype/ 

Uso en conformidad con la licencia Creative Commons: https://creativecommons.org/licenses/by-nc-sa/3.0/ 

1 Este ensayo fue escrito en la primavera de 2022, antes del lanzamiento público del ChatGPT (noviembre del mismo año). El modelo de referencia era el GPT-3 en sus inicios. A poco más de un año, este ejemplo resulta una simplificación, pero aún cumple con sus fines ilustrativos.  

2 Tom M. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, et al., “Language Models are Few-Shot Learners”, mayo de 2020, disponible en https://arxiv.org/abs/2005.14165  

3 Steve Johnson: “A.I. Is Mastering Language. Should We Trust What It Says?”, abril de 2022, disponible en: https://www.nytimes.com/2022/04/15/magazine/ai-language.html?searchResultPosition=2 

4 Emily M. Bender, Timnit Gebru, Angelina McMillan-Major, Shmargaret Shmitchell: “On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?”, marzo de 2021, disponible en: https://dl.acm.org/doi/10.1145/3442188.3445922