Un nuevo estudio publicado en la revista Nature Human Behaviour, reveló que estos modelos artificiales obtienen resultados iguales o mejores que las personas cuando se les plantea preguntas que implican ponerse en la mente de su usuario.
“Los grandes modelos de lenguaje (LLM, por sus siglas inglesas) como ChatGPT muestran un rendimiento que es característico de las capacidades sofisticadas de toma de decisiones y razonamiento, incluida la resolución de tareas ampliamente utilizadas para probar la teoría de la mente en los seres humanos”, indica la indagación.
El estudio señala, además, que la versión ChatGPT-4 iguala o mejora la puntuación de los humanos en las pruebas relativas a la identificación de peticiones indirectas, falsas creencias y desorientación, pero tiene dificultades para detectar los llamados pasos en falso (interacciones en las que una de las partes dice algo que no debería por inapropiado).
Sin embargo, el fundador del Instituto de Investigación de Inteligencia Artificial del Centro Superior de Investigaciones Científicas (CSIC) en España, Ramón López, no está de acuerdo con esos resultados.
En declaraciones al diario El País de la nación europea, el especialista aseveró que los test para medir su rendimiento no son fiables.
“Que la IA se mida o supere a los humanos en una comparativa de rendimiento que se llama como una habilidad general no es lo mismo que la IA supere a los humanos en esa habilidad general”, afirmó.
Aseveró también que no porque una herramienta saque buena nota en una prueba diseñada para medir el desempeño en comprensión lectora se puede decir que eso demuestra que la herramienta tiene comprensión lectora.
Las conclusiones publicadas en Nature Human Behaviour fueron resultado del estudio de dos versiones de ChatGPT (la gratuita, 3.5, y la avanzada, 4) y el modelo de código abierto de Meta, Llama 2.
También expusieron a mil 907 individuos a las mismas pruebas y contrastaron los resultados.
Entre los experimentos aplicados a la IA estuvieron captar la ironía hasta interpretar peticiones indirectas, detectar conversaciones en las que una de las partes dice algo inapropiado o responder a preguntas sobre situaciones en las que falta información y, por tanto, hay que especular.
mem/cdg