Pruebas recientes realizadas por OpenAI revelan una tendencia preocupante: sus últimos modelos de lenguaje de gran tamaño, GPT-o3 y GPT-o4-mini, son significativamente más propensos a “alucinar” —inventar información falsa— que su modelo anterior, GPT-o1. Este desarrollo se suma al creciente misterio que rodea el funcionamiento real de estos complejos sistemas de IA, especialmente a medida que incorporan capacidades de “razonamiento” diseñadas para imitar los procesos de pensamiento humano.
Según informes recientes, el problema de la alucinación de ChatGPT, la tendencia a generar información falsa o engañosa, está empeorando, incluso según las propias pruebas internas de OpenAI. Este desarrollo plantea un desafío significativo para la adopción y utilidad generalizada de los modelos de lenguaje grandes (LLM), ya que la fiabilidad de su producción es crucial para muchas aplicaciones.
Específicamente, un informe del New York Times destaca los hallazgos de OpenAI con respecto a sus últimos modelos GPT. La investigación reveló que los modelos más nuevos, GPT o3 y GPT o4-mini, exhiben tasas de alucinación significativamente más altas en comparación con el modelo GPT o1 anterior. Por ejemplo, al ejecutar la prueba de referencia PersonQA, GPT o3 alucinó el 33% de las veces, más del doble de la tasa de GPT o1. Además, GPT o4-mini tuvo un rendimiento aún peor, con una tasa de alucinación del 48% en la misma prueba.
Además, el problema se extiende a preguntas más generales. En la prueba SimpleQA, las tasas de alucinación para GPT o3 y GPT o4-mini fueron del 51% y el 79%, respectivamente, mientras que GPT o1 alucinó el 44% de las veces. Estas estadísticas indican claramente una tendencia preocupante de aumento de la alucinación en los modelos más nuevos, a pesar de los avances en otras áreas de rendimiento.
El aumento de las alucinaciones parece coincidir con el desarrollo de “modelos de razonamiento”, un tipo de LLM diseñado para realizar tareas complejas dividiendo las preguntas en pasos individuales, imitando un proceso de pensamiento humano. Los observadores de la industria sugieren que estos sistemas de razonamiento, incluidos los de OpenAI, Google y DeepSeek, están generando más errores, no menos.
El primer modelo de razonamiento de OpenAI, o1, fue elogiado por su rendimiento, e incluso se afirmó que igualaba o superaba a los estudiantes de doctorado en varios campos científicos. Sin embargo, los modelos más nuevos, o3 y o4-mini, parecen haber retrocedido en términos de fiabilidad. Esto sugiere que las técnicas utilizadas para mejorar las capacidades de razonamiento pueden contribuir inadvertidamente al problema de la alucinación.
A pesar de estos hallazgos, OpenAI ha declarado que se requiere más investigación para comprender completamente las razones detrás del aumento de las tasas de alucinación. Además, la compañía ha rechazado la narrativa de que los modelos de razonamiento sufren inherentemente tasas de alucinación más altas, y Gaby Raila de OpenAI declaró que están trabajando activamente para reducir las tasas más altas observadas en o3 y o4-mini.
Las implicaciones de esta tendencia son significativas. El principal beneficio de los LLM radica en su capacidad para ahorrar tiempo y trabajo mediante la automatización de tareas y la provisión de información. Sin embargo, la necesidad de revisar y verificar meticulosamente la producción de estos modelos socava esta ventaja. Si no se puede confiar en la producción de los LLM, su utilidad se ve severamente limitada, particularmente en aplicaciones donde la precisión es primordial.
El artículo enfatiza la necesidad de que los LLM reduzcan significativamente su tendencia a generar información falsa o engañosa si quieren cumplir su potencial. El futuro de estas tecnologías depende de la capacidad de los desarrolladores para abordar el problema de la alucinación y garantizar la fiabilidad de su producción. La capacidad de confiar en la información proporcionada por estos modelos es crucial para su adopción generalizada y su integración en varios aspectos de nuestras vidas.
Los modelos más recientes de OpenAI (GPT-o3 y o4-mini) alucinan a tasas significativamente mayores que las versiones anteriores, a pesar de las mejoras en sus capacidades de “razonamiento”. Aunque OpenAI niega una conexión directa entre razonamiento y alucinaciones, el problema socava la fiabilidad de los LLMs y reduce su utilidad práctica, lo que plantea a la industria el desafío crucial de frenar estos “sueños robóticos no deseados”.
Leave a Reply