Además, los profesores que participaron en el estudio calificaron las respuestas de la IA como pedagógicamente engañosas o perjudiciales solo en el 3,5% de los casos, frente al 12% de las respuestas escritas por colegas abogados.
Un estudio ciego dirigido por Julian Nyarko, profesor de la Facultad de Derecho de Stanford, y publicado el lunes, reveló que las respuestas generadas por inteligencia artificial superaron a las escritas por otros profesores de derecho en el 75% de casi 3.000 comparaciones directas, un resultado que los propios autores calificaron de sorprendente.
Datos clave
- Cuando a los profesores de derecho se les entregó una pila de respuestas anónimas a preguntas académicas sobre derecho contractual y se les pidió que eligieran la mejor: optaron por la respuesta de la IA en tres de cada cuatro ocasiones.
- En 16 facultades de derecho, los profesores evaluaron casi 3.000 comparaciones anónimas sin saber si una respuesta determinada provenía de una máquina o de un colega.
- Los profesores calificaron las respuestas de la IA como pedagógicamente engañosas o perjudiciales solo en el 3,5% de los casos, frente al 12% de las respuestas escritas por colegas, lo que significa que las respuestas humanas tenían más del triple de probabilidades de considerarse potencialmente dañinas para la comprensión del estudiante.
- Nyarko, quien dirige el programa de Innovación Legal de Stanford a través del Laboratorio de Tecnología de Frontera, dijo que el grupo “no aboga por la adopción generalizada de tutores de IA”, pero que “nuestros datos sugieren que el escepticismo generalizado puede ser igualmente injustificado”.
¿Por qué se puso a prueba el derecho contractual?
Se eligió el derecho contractual precisamente porque se resiste a las respuestas preestablecidas. Las 40 preguntas utilizadas en el estudio —del tipo que un estudiante podría plantear después de clase o en las horas de consulta— exigían la síntesis de argumentos contrapuestos y una conclusión defendible, en lugar de la mera memorización, poniendo a prueba si un modelo podía razonar cuando no existe una única respuesta correcta.
Antecedentes clave
El artículo fue escrito por Nyarko, con Alejandro Salinas, investigador de Liftlab, como primer autor, junto con colegas de Yale, la Universidad de Nueva York, la Universidad de Chicago y otras instituciones. Los participantes escribieron sus propias respuestas antes de calificar las de los demás; las evaluaciones se realizaron a ciegas mediante diversos métodos de puntuación y los resultados de la IA se calibraron para que coincidieran con la longitud y la estructura de las respuestas humanas. El equipo probó una variedad de sistemas, incluyendo herramientas de tutoría comerciales y Google NotebookLM, y descubrió que el rendimiento variaba. Incluso cuando los modelos se veían limitados por el contexto, los evaluadores a menudo los preferían a sus pares humanos. Los hallazgos se sitúan en medio de un debate sin resolver dentro de la educación jurídica, donde algunas facultades se apresuran a integrar la IA, mientras que otras advierten sobre alucinaciones, la excesiva dependencia de los estudiantes y la lenta erosión de las habilidades de pensamiento crítico que la educación jurídica busca desarrollar.
Qué observar
Los autores insisten en que la calidad y la implementación son cuestiones distintas, y que solo han abordado la primera. Nyarko afirmó que ahora el debate debería centrarse en cómo la IA puede beneficiar mejor a los estudiantes, en lugar de si puede proporcionar respuestas legales precisas y de alta calidad.
