IA: Rápido, ¿pero comprende el trabajo estudiantil?

La corrección de trabajos estudiantiles, especialmente en materias científicas que enfatizan habilidades complejas como la argumentación y el análisis de datos, puede ser una carga de tiempo significativa para los profesores. Un nuevo estudio de la Universidad de Georgia explora cómo la inteligencia artificial, específicamente los Modelos de Lenguaje Amplios (LLMs), pueden ayudar con esta tarea, examinando sus capacidades y limitaciones actuales en la evaluación de las respuestas de los estudiantes.

La corrección de exámenes, una tarea que consume mucho tiempo para muchos educadores, está siendo explorada para obtener asistencia potencial de la inteligencia artificial. Un estudio reciente de la Universidad de Georgia investiga las capacidades de los Modelos de Lenguaje de Gran Tamaño (LLM) en la corrección de trabajos estudiantiles, particularmente en el contexto de los Estándares de Ciencias de la Próxima Generación, que enfatizan habilidades complejas como la argumentación y el análisis de datos.

El desafío principal radica en las limitaciones de tiempo que enfrentan los profesores. Como señala Xiaoming Zhai, autor correspondiente del estudio, la complejidad de tareas como la creación de modelos y la argumentación exige un tiempo de corrección significativo, lo que a menudo impide que los profesores proporcionen comentarios oportunos a los estudiantes. Aquí es donde las herramientas de IA, específicamente los LLM, entran en escena como posibles soluciones.

El estudio se centra en cómo los LLM, entrenados en vastos conjuntos de datos para comprender y generar lenguaje humano, se desempeñan en la corrección en comparación con los correctores humanos. Los investigadores utilizaron el LLM Mixtral para evaluar las respuestas escritas de estudiantes de secundaria a una pregunta de ciencias sobre el comportamiento de las partículas y la transferencia de calor.

Los hallazgos iniciales revelan que los LLM pueden corregir respuestas rápidamente, una ventaja significativa. Sin embargo, esta velocidad tiene un costo: la precisión. Los LLM tienden a depender de atajos, como la identificación de palabras clave, en lugar de evaluar la comprensión más profunda que un corrector humano.

Específicamente, el estudio encontró que los LLM a menudo “sobre-infieren”, como describe Zhai. Por ejemplo, un LLM podría marcar una respuesta como correcta simplemente porque menciona un aumento de temperatura, incluso si la explicación del estudiante no demuestra una clara comprensión del movimiento de las partículas. Esta dependencia de señales superficiales resulta en una tasa de precisión más baja en comparación con los correctores humanos.

Para mejorar la precisión de los LLM, el estudio sugiere proporcionarles rúbricas detalladas hechas por humanos. Estas rúbricas deben delinear criterios y reglas específicas que reflejen los procesos de pensamiento analítico de los correctores humanos. Al seguir estas reglas, el LLM puede evaluar las respuestas de los estudiantes con mayor precisión.

El estudio también destaca las diferencias en el proceso de calificación entre los LLM y los correctores humanos. Tradicionalmente, los LLM se entrenan tanto en las respuestas de los estudiantes como en las calificaciones asignadas por humanos. Sin embargo, en este estudio, se instruyó al LLM para que generara su propia rúbrica.

Los resultados mostraron que, si bien los LLM podían captar la intención general de las preguntas, carecían de la capacidad de razonar como los humanos. En cambio, recurrieron a atajos y al reconocimiento de palabras clave. Esta limitación subraya la necesidad de la guía humana en el proceso de corrección.

Por ejemplo, Zhai señala que un LLM podría asumir incorrectamente que un estudiante comprende la relación entre la temperatura y el movimiento de las partículas basándose únicamente en la presencia de palabras clave, incluso si la explicación del estudiante no es clara o está incompleta. Esto contrasta con la capacidad de un corrector humano para evaluar la lógica y el razonamiento subyacentes.

El estudio también examinó el impacto de proporcionar a los LLM ejemplos de respuestas calificadas sin explicaciones adjuntas. Los resultados mostraron que los LLM son especialmente propensos a depender de atajos en estas situaciones, lo que enfatiza aún más la importancia de rúbricas claras y la supervisión humana.

A pesar del potencial de los LLM para la corrección automatizada, los investigadores advierten contra la sustitución completa de los correctores humanos. El estudio encontró que los LLM lograron solo una tasa de precisión del 33,5% sin rúbricas hechas por humanos. Sin embargo, cuando se les proporcionaron rúbricas hechas por humanos, la tasa de precisión mejoró a poco más del 50%.

Esto sugiere que la intervención humana, en forma de rúbricas bien definidas, es crucial para mejorar la precisión de la corrección basada en LLM. El estudio enfatiza que, si bien los LLM pueden proporcionar una ventaja de velocidad, aún no son capaces de replicar el juicio matizado de los correctores humanos.

Los investigadores creen que si la precisión de los LLM se puede mejorar aún más, los educadores podrían estar más abiertos a utilizar la tecnología para agilizar sus procesos de corrección. Zhai señala que muchos profesores expresan el deseo de reducir el tiempo dedicado a la corrección, lo que les permitiría concentrarse en tareas más significativas, como proporcionar comentarios personalizados y desarrollar lecciones atractivas.

Los hallazgos del estudio, publicados en Technology, Knowledge and Learning, sugieren que la IA tiene el potencial de ayudar a los profesores con la corrección, pero no es una solución completa. La clave para una implementación exitosa radica en combinar la velocidad de los LLM con la experiencia y las capacidades analíticas de los correctores humanos. El equipo de investigación, que incluyó a Xuansheng Wu, Padmaja Pravin Saraf, Gyeonggeon Lee, Eshan Latif y Ninghao Liu, es optimista sobre el futuro de la IA en la educación, pero enfatiza la necesidad de continuar la investigación y el desarrollo para refinar estas herramientas y garantizar que se utilicen eficazmente.

El estudio demuestra que, si bien la IA (específicamente modelos de lenguaje como Mixtral) puede calificar trabajos estudiantiles rápidamente, a menudo se basa en atajos y reconocimiento de palabras clave, lo que lleva a imprecisiones en la evaluación de la verdadera comprensión. Proporcionar a la IA rúbricas detalladas desarrolladas por humanos mejora significativamente la precisión, pero reemplazar por completo a los correctores humanos aún no es factible. En última instancia, la IA ofrece una herramienta prometedora para agilizar la calificación y liberar tiempo a los profesores, pero un desarrollo e integración cuidadosos son cruciales para garantizar una evaluación efectiva y significativa. Se justifica una mayor exploración de los matices de la calificación asistida por IA y su impacto en las prácticas pedagógicas.

Comments

Leave a Reply

Your email address will not be published. Required fields are marked *