Un estudio reciente de la Universidad de Oxford advirtió que recurrir a chatbots de inteligencia artificial (IA) para obtener orientación médica puede ser peligroso. Los modelos de lenguaje de gran tamaño (LLM), aunque entrenados para comprender y procesar el lenguaje humano, presentan fallas importantes que generan información inexacta e inconsistente, lo que podría poner en riesgo a quienes buscan evaluar sus síntomas sin consultar a un profesional.
Según la investigación publicada en Nature Medicine, existe una brecha significativa entre lo que prometen los LLM y su utilidad real para los pacientes. El estudio, liderado por el Oxford Internet Institute y el Departamento Nuffield de Ciencias de la Salud de Atención Primaria, concluyó que las personas que utilizaron la IA para decidir sobre la gravedad de sus síntomas no tomaron mejores decisiones que quienes recurrieron a métodos tradicionales, como buscar información en internet o confiar en su propio juicio.
En los últimos años, diversos proveedores de salud han propuesto los LLM como herramientas potenciales para evaluaciones preliminares de salud, pero el ensayo realizado por los investigadores demuestra que su efectividad aún es limitada.
Para evaluar esta capacidad, los autores realizaron un ensayo aleatorio con casi 1.300 participantes, quienes debían identificar posibles condiciones de salud, desde resfriados y anemia hasta cálculos biliares, y decidir si acudir al médico de cabecera o al hospital.
Durante el experimento, un grupo utilizó un LLM para asistir su toma de decisiones, mientras que el grupo de control recurrió a fuentes tradicionales, como búsquedas en internet. Los resultados evidenciaron una brecha significativa entre el rendimiento teórico de la IA y su desempeño práctico.
Además, el análisis manual de las interacciones mostró que los modelos generaban información engañosa o errónea, y que los usuarios a menudo proporcionaban datos incompletos, dificultando la calidad de las respuestas.
En consecuencia, los autores concluyen que los LLM actuales no están listos para su implementación en atención directa al paciente. Andrew Bean, autor principal del estudio, destacó que “diseñar pruebas robustas para los modelos de lenguaje es clave para entender cómo aprovechar esta tecnología de manera segura”.
Por su parte, Rebecca Payne, médica y líder de la investigación, advirtió que “a pesar de la expectativa, la IA no puede reemplazar al médico. Consultar un chatbot sobre síntomas puede ser peligroso, pues puede ofrecer diagnósticos erróneos y no reconocer situaciones de emergencia”.
En síntesis, el estudio refuerza la idea de que los sistemas de IA deben evaluarse cuidadosamente en entornos reales, de manera similar a los ensayos clínicos para medicamentos, antes de ser recomendados para decisiones médicas, especialmente en áreas de alto riesgo como la salud humana.

