Evaluación comparativa de grandes modelos lingüísticos en la generación de materiales educativos para pacientes en odontología

Jul 04 de 2025 0
Evaluación del poder de la IA

RESUMEN

Antecedentes
Este estudio evalúa el uso de grandes modelos lingüísticos (LLM) en la generación de materiales educativos para pacientes (PEM) para situaciones odontológicas, centrándose en su fiabilidad, legibilidad, comprensión y viabilidad. El estudio tuvo como objetivo evaluar el rendimiento de cuatro LLM (ChatGPT-4.0, Claude 3.5 Sonnet, Gemini 1.5 Flash y Llama 3.1–405b) en la generación de PEM para cuatro situaciones odontológicas comunes.

Métodos
Se realizó un análisis comparativo en el que cinco profesionales odontológicos independientes evaluaron los materiales utilizando la Herramienta de Evaluación de Materiales Educativos para Pacientes (PEMAT) para evaluar su comprensión y viabilidad. La legibilidad se midió con las puntuaciones de facilidad y nivel de lectura de Flesch, y la fiabilidad interevaluador se evaluó mediante el índice Kappa de Fleiss.

Resultados
Llama 3.1–405b demostró la mayor fiabilidad interevaluador (Kappa de Fleiss: 0,78–0,89). ChatGPT-4.0 destacó en comprensión, superando el umbral PEMAT del 70 % en tres de los cuatro escenarios. Claude 3.5 Sonnet obtuvo buenos resultados en comprensión en dos escenarios, pero no alcanzó consistentemente el umbral del 70 % en cuanto a procesabilidad. ChatGPT-4.0 generó las respuestas más largas, mientras que Claude 3.5 Sonnet generó las más cortas.

Conclusiones
ChatGPT-4.0 demostró una comprensión superior, mientras que Llama 3.1–405b logró la mayor fiabilidad interevaluador. Los hallazgos indican que se requiere mayor refinamiento e intervención humana para que el contenido generado por LLM cumpla con los estándares de una educación eficaz para el paciente.

Sivaramakrishnan, G., Almuqahwi, M., Ansari, S. et al. Assessing the power of AI: a comparative evaluation of large language models in generating patient education materials in dentistry. BDJ Open 11, 59 (2025). https://doi.org/10.1038/s41405-025-00349-1

Comparte esta noticia



Últimas Noticias

0 Comentarios

Para comentar debes haber iniciado sesión

Iniciar sesión