Evaluación del rendimiento de ChatGPT-4 en preguntas sobre odontología pediátrica

Sep 30 de 2025 0
Análisis de precisión e integralidad.

Resumen

Antecedentes: Este estudio tuvo como objetivo evaluar la precisión e integralidad de las respuestas de Chat Generative Pre-trained Transformer-4 (ChatGPT-4) a preguntas frecuentes (FAQs) realizadas por pacientes y padres, así como a preguntas curriculares relacionadas con la odontología pediátrica. Además, buscó determinar si el rendimiento de ChatGPT-4 variaba según los diferentes temas de las preguntas.

Métodos: Las respuestas de ChatGPT-4 a 30 preguntas frecuentes de pacientes y padres y 30 preguntas curriculares que abarcan seis temas de odontología pediátrica (selladores de fosas y fisuras, flúor, caries en la primera infancia, prácticas de higiene oral, desarrollo de la dentición y la oclusión, y terapia pulpar) fueron evaluadas por 30 odontopediatras. La precisión se calificó utilizando una escala Likert de cinco puntos, mientras que la integralidad se evaluó mediante una escala de tres puntos, capturando distintos aspectos de la calidad de la respuesta. Los análisis estadísticos incluyeron la prueba exacta de Fisher, la prueba U de Mann-Whitney, la prueba de Kruskal-Wallis y comparaciones post hoc con ajuste de Bonferroni.

Resultados: Las respuestas de ChatGPT-4 demostraron una alta precisión general en todos los tipos de preguntas. Los puntajes medios de precisión fueron de 4.21 ± 0.55 para las preguntas frecuentes y 4.16 ± 0.70 para las preguntas curriculares, lo que indica que las respuestas fueron calificadas en general como “buenas” a “excelentes” por los odontopediatras, sin diferencias estadísticamente significativas entre los dos grupos (p = 0.942). Los puntajes de integralidad fueron moderados en general, con medias de 2.51 ± 0.40 (mediana: 3) y 2.61 ± 1.53 (mediana: 3) para preguntas frecuentes y curriculares, respectivamente (p = 0.563), lo que refleja una cobertura de respuesta generalmente aceptable. Los puntajes de precisión para las preguntas curriculares variaron significativamente según el tema (p = 0.007), con el puntaje más alto para selladores de fosas y fisuras (4.45 ± 0.62; mediana: 5) y el más bajo para terapia pulpar (3.93 ± 0.93; mediana: 4).

Conclusión: Desde una perspectiva clínica, ChatGPT-4 demuestra una precisión prometedora y una integralidad aceptable en la comunicación en odontología pediátrica. Sin embargo, su rendimiento en ciertas áreas curriculares —particularmente en flúor y terapia pulpar— requiere una interpretación cautelosa y supervisión profesional.

Sezer B, Okutan AE. Evaluation of ChatGPT-4's performance on pediatric dentistry questions: accuracy and completeness analysis. BMC Oral Health. 2025 Sep 24;25(1):1427. doi: 10.1186/s12903-025-06791-9. PMID: 40993703; PMCID: PMC12462031.

Comparte esta noticia



Últimas Noticias

0 Comentarios

Para comentar debes haber iniciado sesión

Iniciar sesión