ChatGPT demuestra una “impresionante” capacidad para decidir en casos clínicos, según un estudio

Captura de pantalla de ChatGPT.

Un equipo de investigadores del Mass General Brigham, en Estados Unidos, realizó un nuevo estudio que revela que ChatGPT tiene una capacidad del 72% para decidir en casos clínicos en general, desde plantear posibles diagnósticos hasta llegar a diagnósticos finales y decisiones sobre el manejo de los cuidados.

El chatbot de inteligencia artificial con modelo de lenguaje amplio (LLM) tuvo el mismo desempeño tanto en atención primaria como en urgencias y en todas las especialidades médicas, según publican en el Journal of Medical Internet Research.

“Nuestro estudio examina de forma integral el apoyo a la decisión a través de ChatGPT desde el inicio del trabajo con un paciente y a lo largo de todo el escenario asistencial, desde el diagnóstico diferencial hasta las pruebas, el diagnóstico y el tratamiento”, explica el autor Marc Succi, director asociado de innovación y comercialización y líder de innovación estratégica en el Mass General Brigham y director ejecutivo de la Incubadora Mesh.

“No hay puntos de referencia reales, pero estimamos que este rendimiento está al nivel de alguien que acaba de terminar la facultad de medicina, como un interno o un residente —añade—. Esto nos dice que los LLM en general tienen el potencial de ser una herramienta de aumento para la práctica de la medicina y apoyar la toma de decisiones clínicas con una precisión impresionante”.

La tecnología de inteligencia artificial está cambiando rápidamente y está transformando muchas industrias, incluida la sanitaria, pero aún no se ha estudiado la habilidad de las LLM para ayudar en todo el ámbito de la atención clínica.

En este estudio exhaustivo y multiespecialidad sobre cómo podrían utilizarse los LLM en el asesoramiento clínico y la toma de decisiones, Succi y su equipo probaron la hipótesis de que ChatGPT sería capaz de trabajar a lo largo de todo un encuentro clínico con un paciente y recomendar una prueba diagnóstica, decidir el curso de tratamiento clínico y, finalmente, realizar el diagnóstico final.

El estudio se hizo pegando en ChatGPT partes sucesivas de 36 viñetas clínicas estandarizadas y publicadas. Primero, se le pidió a la herramienta que propusiera una serie de diagnósticos posibles o diferenciales basados en la información inicial del paciente, que incluía la edad, el sexo, los síntomas y si se trataba de una urgencia.

Luego, ChatGPT recibía información adicional y se le pedía que tomara decisiones de tratamiento y diera un diagnóstico final, simulando todo el proceso de atención a un paciente real.

El equipo comparó la capacidad de ChatGPT en el diagnóstico diferencial, las pruebas diagnósticas, el diagnóstico final y el tratamiento en un proceso ciego estructurado, otorgando puntos por las respuestas correctas y utilizando regresiones lineales para evaluar la relación entre el desempeño de ChatGPT y la información demográfica de la viñeta.

Resultados del estudio

Los investigadores encontraron que, en general, ChatGPT tenía una capacidad del 72% y que su mejor resultado era el diagnóstico final, con una capacidad del 77%. Su desempeño más bajo fue en el diagnóstico diferencial, con una capacidad del 60%. Y sólo tuvo un 68% de capacidad en las decisiones de gestión clínica, como determinar con qué medicamentos tratar al paciente tras llegar al diagnóstico correcto.

Además, las respuestas de ChatGPT no mostraban sesgo de género y que su desempeño general era estable tanto en atención primaria como en urgencias.

“ChatGPT tuvo dificultades con el diagnóstico diferencial, que es el núcleo de la medicina cuando un médico tiene que averiguar qué hacer —señala Succi—. Esto es importante porque nos dice dónde son realmente expertos los médicos y dónde aportan más valor: en las primeras fases de la atención al paciente, con poca información, cuando se necesita una lista de posibles diagnósticos”.

Implicaciones y próximos pasos

Los autores indican que antes de que herramientas como ChatGPT puedan considerarse para su integración en la atención clínica, se necesita más investigación de referencia y orientación normativa. Ahora, el equipo de Succi está estudiando si las herramientas de IA pueden mejorar la atención al paciente y los resultados en las zonas de recursos limitados de los hospitales.

Previous Article
Nsync. Foto cortesía.

Nsync grabará nueva canción después de 20 años

Next Article

X solo mostrará la imagen de los artículos compartidos

Related Posts