Los últimos modelos de IA de OpenAI, o3 y o4-mini, representan avances significativos en las capacidades de razonamiento. Sin embargo, sorprendentemente, estos nuevos modelos exhiben una tasa más alta de “alucinaciones” —inventando información— que los modelos anteriores de OpenAI, incluso superando a algunos de sus homólogos tradicionales. Esta tendencia inesperada plantea un desafío a medida que la industria de la IA se centra cada vez más en modelos de razonamiento para mejorar el rendimiento.
Los nuevos modelos de IA o3 y o4-mini de OpenAI, aunque son de última generación en muchos aspectos, exhiben una tendencia preocupante: el aumento de las tasas de alucinación en comparación con sus predecesores. Este fenómeno, en el que los modelos fabrican información, presenta un desafío significativo para la empresa y la industria de la IA en general.
Históricamente, cada nueva generación de modelos de IA ha mostrado ligeras mejoras en la reducción de las alucinaciones. Sin embargo, o3 y o4-mini rompen este patrón. Pruebas internas realizadas por OpenAI revelan que estos “modelos de razonamiento” alucinan con más frecuencia que los modelos de razonamiento anteriores como o1, o1-mini y o3-mini, así como modelos que no son de razonamiento como GPT-4o. Esto es un retroceso significativo, especialmente considerando el enfoque de la industria en mejorar la precisión.
El problema se ve agravado por la admisión de OpenAI de que no entienden completamente la causa de este aumento de las alucinaciones. Su informe técnico para o3 y o4-mini afirma explícitamente que “se necesita más investigación” para desentrañar por qué las alucinaciones están empeorando a medida que se escalan los modelos de razonamiento. Esta falta de comprensión resalta la complejidad del problema y los desafíos para mitigarlo.
A pesar de su rendimiento mejorado en áreas como la codificación y las matemáticas, la tendencia de o3 y o4-mini a alucinar plantea un problema grave. Los modelos, en su búsqueda de generar respuestas más completas, tienden a hacer más afirmaciones en general, lo que conduce a afirmaciones más precisas e imprecisas, incluida la información fabricada.
La evidencia de este problema está fácilmente disponible. Por ejemplo, en PersonQA, un punto de referencia interno utilizado por OpenAI para medir la precisión del conocimiento de un modelo sobre las personas, o3 alucinó en respuesta al 33% de las preguntas. Este es un aumento significativo en comparación con las tasas de alucinación del 16% y el 14,8% de o1 y o3-mini, respectivamente. O4-mini tuvo un rendimiento aún peor, alucinando el 48% de las veces en el mismo punto de referencia.
Las pruebas de terceros realizadas por Transluce, un laboratorio de investigación de IA sin fines de lucro, corroboran aún más estos hallazgos. Transluce observó que o3 fabricaba detalles sobre sus acciones, como afirmar que había ejecutado código en una MacBook Pro de 2021 fuera de ChatGPT, una capacidad que no posee. Este tipo de fabricación socava la fiabilidad del modelo y plantea interrogantes sobre su fiabilidad.
Neil Chowdhury, investigador de Transluce y ex empleado de OpenAI, sugiere que las técnicas de aprendizaje por refuerzo utilizadas para los modelos de la serie o pueden estar amplificando problemas que normalmente se mitigan mediante las tuberías de post-entrenamiento estándar. Esta hipótesis apunta a un posible fallo en el proceso de entrenamiento que podría estar contribuyendo al aumento de las tasas de alucinación.
Las implicaciones de estas alucinaciones son significativas, particularmente para las empresas que requieren una alta precisión. Sarah Schwettmann, cofundadora de Transluce, sugiere que la alta tasa de alucinación de o3 puede limitar su utilidad. Kian Katanforoosh, profesor adjunto de Stanford y director ejecutivo de la startup de mejora de habilidades Workera, aunque considera que o3 es superior a la competencia en los flujos de trabajo de codificación, señala que tiende a alucinar enlaces rotos a sitios web, lo que destaca aún más las limitaciones prácticas del modelo.
El potencial de las alucinaciones para socavar la aplicación práctica de estos modelos es sustancial. Por ejemplo, un bufete de abogados probablemente consideraría inaceptable un modelo que insertara errores fácticos en los contratos de los clientes. Esto subraya la necesidad crítica de abordar y mitigar el problema de las alucinaciones antes de que estos modelos puedan implementarse ampliamente en aplicaciones sensibles.
Un enfoque prometedor para combatir las alucinaciones es la integración de capacidades de búsqueda web. GPT-4o de OpenAI, equipado con búsqueda web, logra una tasa de precisión del 90% en SimpleQA, otro de los puntos de referencia de precisión de OpenAI. Esto sugiere que proporcionar a los modelos acceso a información externa puede mejorar significativamente su precisión y potencialmente reducir su tendencia a alucinar.
La urgencia de encontrar una solución se ve aún más intensificada por el cambio de la industria hacia los modelos de razonamiento. Si la tendencia al aumento de las alucinaciones persiste a medida que se escalan los modelos de razonamiento, se requerirá un esfuerzo concertado para desarrollar estrategias de mitigación efectivas.
OpenAI reconoce el problema y está trabajando activamente para mejorar la precisión y la fiabilidad de sus modelos. Niko Felix, un portavoz de OpenAI, confirmó que abordar las alucinaciones es un área de investigación en curso para la empresa.
La industria de la IA en general se ha centrado en los modelos de razonamiento en el último año, ya que las técnicas para mejorar los modelos de IA tradicionales comenzaron a mostrar rendimientos decrecientes. El razonamiento ofrece mejoras en el rendimiento del modelo sin requerir grandes cantidades de computación y datos durante el entrenamiento. El hecho de que el razonamiento también pueda conducir a más alucinaciones presenta un desafío significativo que debe abordarse.
A pesar de las mejoras en codificación y matemáticas, los nuevos modelos de razonamiento o3 y o4-mini de OpenAI muestran sorprendentemente tasas de alucinación más altas que modelos anteriores, incluso GPT-4o. Esta tendencia, confirmada por pruebas internas y análisis externos, representa un desafío importante para la industria de la IA. Aunque la integración con la búsqueda web es prometedora, el aumento de las alucinaciones subraya la necesidad urgente de soluciones innovadoras para garantizar la precisión y fiabilidad en la IA, especialmente para aplicaciones empresariales.
Leave a Reply