Los nuevos modelos de lenguaje de inteligencia artificial responden tonterías en lugar de perfeccionarse
ACTUALIDAD
Un estudio advierte de que los modelos más avanzados no poseen ninguna «zona segura» y fiable y son más propensos a dar siempre una respuesta, aunque sea incorrecta
26 sep 2024 . Actualizado a las 13:57 h.Las últimas y mayores versiones de tres de los principales modelos de lenguaje de inteligencia artificial (chatbots) parecen caminar hacia atrás en lugar de hacia adelante y ofrecer respuestas que son cada vez más erróneas y menos fiables. Las llamadas «alucinaciones» y respuestas extrañas que ofrecen estas herramientas no están mejorando a medida que los sistemas adquieren un mayor tamaño, se nutren de mayor cantidad de datos o tienen mayores parámetros para tomar decisiones. Pese a ello, los usuarios tienen muchas veces dificultades para distinguir los resultados erróneos, porque lo que nunca hará un chatbot es admitir que desconoce una respuesta.
Un estudio realizado por la Universitat Politécnica de Valencia (UPV) y la Universidad de Cambridge revela una tendencia «alarmante» al empeoramiento de la fiabIlidad de los modelos de lenguaje de inteligencia artificial (IA), tales como el GPT-4, en comparación con los primeros, como el GPT-3.
El trabajo, que publica este miércoles la revista Nature, señala que los recientes avances en IA han generalizado el uso de grandes modelos de lenguaje, pero su fiabilidad está cada vez más en entredicho, según detalla la UPV.
El estudio ha sido liderado por un equipo del Instituto VRAIN de la Universitat Politécnica de Valencia y la Escuela Valenciana de Posgrado y Red de Investigación en Inteligencia Artificial (ValgrAI), junto con la Universidad de Cambridge. En él han trabajado los investigadores de la UPV José Hernández-Orallo, Cèsar Ferri, Wout Schellaert, Lexin Zhou y Yael Moros.
El equipo ha sido parte del «red team» de GPT-4, cuya misión era encontrar fallos y vulnerabilidades en el sistema, así como evaluar sus capacidades y posibles riesgos asociados a su uso.
Según Hernández-Orallo, una de las principales preocupaciones sobre la fiabilidad de los modelos de lenguaje es que existe una discordancia entre las expectativas de que los modelos fallen de acuerdo a la percepción humana de dificultad en la tarea y las tareas donde realmente los modelos fallan, precisa.
«Los modelos pueden resolver ciertas tareas complejas de acuerdo a las habilidades humanas, pero, al mismo tiempo, fallan en tareas simples del mismo dominio. Por ejemplo -apunta-, pueden resolver varios problemas matemáticos de nivel de doctorado, pero se pueden equivocar en una simple suma».
El equipo de la UPV y la Universidad de Cambridge investigaron tres aspectos clave que afectan a la fiabilidad de los modelos de lenguaje desde una perspectiva humana, y concluyen que no existe una «zona segura» en la que los modelos funcionen a la perfección.
«Los modelos suelen ser menos precisos en tareas que los humanos consideran difíciles, pero no son precisos al 100 % ni siquiera en tareas sencillas. Esto significa que no existe una ''zona segura'' en la que se pueda confiar en que los modelos funcionen a la perfección», agrega Yael Moros Daval.
De hecho, los modelos más recientes básicamente mejoran su rendimiento en tareas de alta dificultad, pero no en otras de baja dificultad, lo que «agrava la discordancia de dificultad entre el rendimiento de los modelos y las expectativas humanas», precisa Martínez Plumed.
El estudio descubre asimismo que los modelos de lenguaje recientes son mucho más propensos a proporcionar respuestas incorrectas, en vez de evitar dar una respuesta en caso de no estar seguros, lo que puede llevar a que los usuarios que inicialmente confían demasiado en los modelos luego «se decepcionen», añade Lexin Zhou.
Sensibilidad al enunciado del problema
El estudio analiza si la eficacia de la formulación de las preguntas se ve afectada por la dificultad de las mismas y concluye que es posible que la tendencia actual de progreso en el desarrollo de modelos de lenguaje y de mayor comprensión de una variedad de órdenes no libere a los usuarios de preocuparse en hacer enunciados eficaces.
«Hemos comprobado que los usuarios pueden dejarse influir por prompts que funcionan bien en tareas complejas pero que, al mismo tiempo, obtienen respuestas incorrectas en tareas sencillas», agrega César Ferri.
Los investigadores han descubierto al mismo tiempo que la supervisión humana es incapaz de compensar estos aspectos de la falta de fiabilidad.
Por ejemplo, las personas pueden reconocer las tareas de alta dificultad, pero siguen considerando con frecuencia que los resultados incorrectos son correctos en esta área, incluso cuando se les permite decir «no estoy seguro», lo que indica un exceso de confianza.
Desde ChatGPT a LLaMA y BLOOM
Los resultados obtenidos en este estudio fueron similares para las tres principales familias de modelos de lenguaje: GPT de OpenAI, LLaMA de pesos abiertos de Meta, y BLOOM, una iniciativa totalmente abierta de la comunidad científica.
Los investigadores han constatado que los problemas de discordancia de dificultad, falta de abstención adecuada y sensibilidad al prompt siguen siendo un problema para las nuevas versiones de las familias populares como los nuevos modelos o1 de OpenAI y Claude-3.5-Sonnet de Anthropic.
Los investigadores proponen un cambio en el diseño y desarrollo de la IA de propósito general, sobre todo para las aplicaciones de alto riesgo, en las que la predicción del desempeño de los modelos de lenguaje como la detección de sus errores son primordiales.
Pablo Haya Coll, investigador del Laboratorio de Lingüística Informática de la Universidad Autónoma de Madrid, asegura que «el estudio aporta una comprensión más profunda sobre la fiabilidad de los modelos de lenguaje de gran tamaño (LLM), desafiando la suposición de que escalar y ajustar estos modelos siempre mejora su precisión y alineación», según declaraciones recogidas por SMC España. También señala que la llamada «discordancia de la dificultad» revela que, «incluso en los modelos más avanzados, los errores pueden aparecer en cualquier tipo de tarea, sin importar su dificultad».
Andreas Kaltenbrunner, investigador líder del grupo AI and Data for Society de la UOC, señala que este comportamiento en el que los modelos dan respuestas siempre y en cualquier caso, incluso cuando estas son incorrectas, «puede considerarse una tendencia preocupante que socava la confianza de los usuarios».
Josep Curto, profesor de los Estudios de Informática, Multimedia y Telecomunicación de la UOC, director del máster universitario en Inteligencia de Negocio y Big Data Analytics (MIBA) de la UOC y experto en IA, califica este estudio de «riguroso» y declara: «Uno de los grandes retos en el contexto de los LLMs es la interpretabilidad y explicabilidad (para los humanos); desafortunadamente, a medida que la arquitectura crece en complejidad, la explicación también crece en complejidad y puede llegar rápidamente a superar nuestra capacidad de comprensión».