¿Cuántas palabras conoce ChatGPT?

NCYT Amazings.- Capaces de crear contenidos originales a partir de datos existentes, las aplicaciones de inteligencia artificial generativa, como el popular ChatGPT, han registrado un desarrollo exponencial en los últimos meses. Son millones las personas que las utilizan diariamente para las tareas más diversas. Sin embargo, tenemos un conocimiento muy limitado de estas herramientas. Hasta ahora, por ejemplo, ignorábamos algo tan básico como cuántas palabras de la lengua española pueden identificar ChatGPT.

Investigadores de la Universidad Politécnica de Madrid (UPM), junto a colegas de la Universidad Carlos III de Madrid (UC3M) y la Universidad de Valladolid (UVa), todas estas instituciones en España, se propusieron responder a la pregunta. Para ello, han desarrollado una aplicación, bautizada como ChatWords, que permite evaluar el conocimiento léxico que el sistema de inteligencia artificial tiene de diferentes idiomas. Su estudio inicial de las más de 90.000 palabras contenidas en el diccionario de la Real Academia de la Lengua muestra que el modelo ChatGPT3.5turbo desconoce aproximadamente el 20%. Y no solo eso. Del 80% restante, ofrece significados erróneos en algunos casos, en torno al 5%.

Para entender mejor los resultados, conviene tener en cuenta que un hispanohablante reconoce 30.000 palabras de media, es decir, casi un tercio del léxico español. Puede parecer un porcentaje pobre frente al de la máquina. “Pero como pasa muchas veces con los sistemas de inteligencia artificial, no es oro todo lo que reluce, y analizando los significados que da ChatGPT de las palabras, vemos que hay un porcentaje no despreciable en que el sentido que señala es incorrecto”, afirma Javier Conde, profesor ayudante en la Escuela Técnica Superior de Ingenieros de Telecomunicación (ETSIT) de la UPM y uno de los autores del estudio. “Quizás ChatGPT no sea hoy en día tan sabio como aparenta”, añade.

Es razonable pensar que los modelos de lenguaje de gran tamaño (LLM, por sus siglas en inglés), basados en inteligencia artificial y diseñada para procesar y comprender lenguaje natural en una escala enorme, no utilizarán palabras que desconocen. Por tal motivo, surge otra preocupación. Para Pedro Reviriego, profesor titular de la ETSIT implicado también en la investigación, resulta “muy factible un escenario en que el contenido recién generado tenga una cantidad cada vez menor de palabras distintas”. “Por tanto, es fundamental garantizar la riqueza léxica en el texto creado por inteligencia artificial”, sostiene.

La aplicación ChatWords es de código abierto y está diseñada para ser fácil de usar y ampliar.

El siguiente paso de los investigadores será evaluar otros idiomas y modelos de lenguaje de gran tamaño para conocer mejor el conocimiento léxico que tienen las herramientas de inteligencia artificial y cómo evoluciona a medida que aparecen nuevas versiones y herramientas.

El trabajo de estos científicos se enmarca en el proyecto Redes del Futuro para Centros de Procesados de Datos y Operadores, financiado por la Agencia Estatal de Investigación en España, y cuenta con el apoyo de OpenAI, laboratorio estadounidense responsable de ChatGPT, a través de su programa de acceso a investigadores.