Una discrepancia entre los resultados de las pruebas de rendimiento de primera y tercera parte para el modelo o3 de IA de OpenAI está generando dudas sobre la transparencia de la compañía y sus prácticas de prueba de modelos. Cuando OpenAI presentó o3 en diciembre, afirmaron un rendimiento impresionante en la prueba FrontierMath, pero las pruebas independientes han revelado puntuaciones significativamente más bajas.
Una discrepancia ha surgido entre las afirmaciones iniciales de OpenAI y los resultados de referencia independientes para su modelo de IA o3, lo que genera preocupaciones sobre la transparencia y las prácticas de prueba dentro de la empresa. Esta situación destaca una creciente tendencia de “controversias de evaluación comparativa” en la industria de la IA, que evoluciona rápidamente.
Cuando OpenAI presentó o3 en diciembre, la empresa presentó resultados impresionantes en la evaluación comparativa FrontierMath, un conjunto desafiante de problemas matemáticos. Mark Chen, director de investigación de OpenAI, afirmó durante una transmisión en vivo que o3 podía responder más del 25% de las preguntas de FrontierMath en “configuraciones de computación agresivas en tiempo de prueba”, superando significativamente a la competencia. Esta afirmación inicial estableció un alto estándar para las capacidades del modelo.
Sin embargo, las pruebas independientes de Epoch AI, el instituto de investigación detrás de FrontierMath, revelaron una imagen diferente. Las pruebas de referencia de Epoch del modelo o3 lanzado públicamente arrojaron una puntuación de alrededor del 10%, considerablemente más baja que las afirmaciones iniciales de OpenAI. Esta disparidad inmediatamente generó preguntas sobre la precisión y la consistencia de las métricas de rendimiento informadas por OpenAI.
La diferencia en los resultados no indica necesariamente un engaño absoluto, como señala el artículo. Los resultados de la evaluación comparativa publicados por OpenAI en diciembre mostraron una puntuación de límite inferior que se alinea con los hallazgos de Epoch. Además, Epoch reconoció que las diferencias en las configuraciones de las pruebas, incluido el uso de una versión actualizada de FrontierMath, podrían contribuir a la variación.
Para complicar aún más la situación, parece que el modelo o3 lanzado públicamente no es idéntico a la versión inicialmente demostrada y evaluada por OpenAI. Según una publicación en X de la ARC Prize Foundation, que probó una versión preliminar de o3, el modelo público es “un modelo diferente […] ajustado para el uso de chat/producto”. La ARC Prize Foundation señaló que los niveles de computación o3 lanzados son más pequeños que la versión que evaluaron, y que los niveles de computación más grandes generalmente conducen a mejores puntuaciones de referencia.
Wenda Zhou de OpenAI, miembro del personal técnico, confirmó durante una transmisión en vivo que la versión de producción de o3 prioriza los “casos de uso del mundo real” y la velocidad sobre el rendimiento demostrado en la demostración de diciembre. Zhou explicó que se realizaron optimizaciones para mejorar la rentabilidad y la usabilidad, lo que puede haber resultado en “disparidades” en la evaluación comparativa. Esto sugiere un compromiso entre el rendimiento bruto y la aplicación práctica.
A pesar del rendimiento inferior al esperado del modelo o3 público, el artículo señala que la empresa ya ha lanzado modelos superiores, como o3-mini-high y o4-mini, que superan a o3 en FrontierMath. OpenAI también planea presentar una variante o3 más potente, o3-pro, en un futuro próximo. Esta rápida iteración destaca la naturaleza dinámica del panorama de la IA.
Esta situación sirve como recordatorio de que las evaluaciones comparativas de IA deben abordarse con cautela, particularmente cuando la fuente es una empresa con un interés personal en la promoción de sus productos. El artículo enfatiza que las “controversias de evaluación comparativa se están convirtiendo en un fenómeno común en la industria de la IA”, señalando problemas similares con otros desarrolladores de IA prominentes.
El artículo cita ejemplos de tales controversias, incluida la divulgación tardía de Epoch AI de fondos de OpenAI y las acusaciones de gráficos de evaluación comparativa engañosos contra xAI de Elon Musk. Meta también admitió haber promocionado las puntuaciones de referencia para una versión del modelo diferente a la disponible para los desarrolladores. Estos casos subrayan la necesidad de una mayor transparencia y una verificación rigurosa e independiente de las afirmaciones de rendimiento del modelo de IA.
La publicación del modelo o3 de OpenAI generó controversia debido a una discrepancia significativa entre las afirmaciones iniciales de rendimiento (más del 25% en FrontierMath) y los resultados de pruebas independientes (alrededor del 10%), atribuyéndose las diferencias a la potencia de cálculo, el ajuste del modelo para uso real y las variaciones en el conjunto de datos FrontierMath. Este incidente, junto con problemas similares de otras empresas de IA como xAI y Meta, subraya la necesidad de una evaluación crítica de los puntos de referencia de IA y un mayor énfasis en la transparencia en las prácticas de prueba de modelos.
Leave a Reply