
“All models are wrong, but some are useful”, es una frase atribuida al estadístico George Box. Aunque empieza con una afirmación provocadora, nos quedamos con la segunda parte de la frase que, en el fondo, es lo que nos importa y preocupa en gestión sanitaria.
Sin embargo, esa aparente tranquilidad que nos brinda saber que un buen número de modelos predictivos están siendo útiles y se han convertido en herramientas de decisión imprescindibles contrasta con la realidad de lo que sucede “aguas arriba” en el proceso de desarrollo de los mismos [1] [2] [3]. Así, un reconocido experto en modelos de predicción clínica como es Florien Markowetz publicó el año pasado en NPJ Precision Oncology un paper con un título mucho más agresivo que la frase original de Box “All models are wrong and yours are useless: making clinical prediction models impactful for patients”.[4]
El autor argumenta detalladamente su crítica y aporta un buen número de ejemplos, entre ellos cita una revisión de modelos predictivos en EPOC que identifica más de cuatrocientos con falta de validación externa y uso anecdótico en práctica real[5]. La evaluación de impacto de los mismos, ni está ni se la espera.
“Esto seguro que lo arregla la IA” nos viene rápido a la cabeza como solución milagrosa. La realidad es otra. El desarrollo de modelos predictivos con técnicas de inteligencia artificial ha acentuado el problema, escasa mejora -salvo notables excepciones- respecto a los modelos convencionales y limitados avances en aplicabilidad. Los modelos basados en IA suelen adolecer de sobreajuste, lo que limita su generalización; su complejidad y naturaleza de “caja negra” dificulta la interpretación clínica, minando la confianza de los profesionales; y su dependencia de grandes volúmenes de datos choca frontalmente con la realidad fragmentada y ruidosa de los entornos clínicos rutinarios. En definitiva, la IA no escapa a las reglas de oro de la utilidad predictiva: sin transparencia, integrabilidad y un vínculo directo con una acción clínica, su superioridad técnica acaba siendo irrelevante en la práctica. Nunca se han publicado tantos modelos y, sin embargo, muy pocos llegan al punto donde realmente importan: cambiar decisiones clínicas y mejorar resultados en personas reales. El éxito académico no es éxito clínico.
Los gestores sanitarios estamos entrando en una era donde decenas de empresas consultoras, tecnológicas y centros de investigación ofrecen “modelos predictivos” que prometen optimizar procesos, anticipar eventos adversos, predecir el deterioro clínico y funcional, segmentar a los pacientes en grupos con significado clínico y personalizar la atención incorporando ilimitadas variables y biomarcadores… Es difícil no verse atraído y sufrir un FOMO considerable. Pero ¿qué deberíamos exigir a estos proyectos?, ¿cómo saber si un modelo va a suponer una mejora real en la calidad de las decisiones clínicas y de gestión o estamos ante un elegante esfuerzo académico sin aplicabilidad práctica?
Markowetz nos aporta algunas claves relevantes. Analiza por qué tantos modelos terminan en el cajón, incluso cuando sus métricas estadísticas son excelentes. Sus cinco observaciones encajan con lo que vemos cada día en nuestras organizaciones:
- Como ya hemos mencionado: “el éxito académico no equivale al éxito clínico”. Las reglas actuales de carrera investigadora premian la novedad, originalidad y la complejidad técnica por encima de la implementación real.
- Los modelos que triunfan utilizan exclusivamente datos disponibles de forma rutinaria en la práctica clínica diaria. Si el modelo requiere pruebas o escalas no integradas, su probabilidad de adopción cae en picado.
- Los modelos útiles están ligados a una acción clínica concreta y accionable. No basta con estratificar riesgo; el profesional necesita saber exactamente qué cambiar en su decisión inmediata.
- La verdadera utilidad se demuestra cuando la aplicabilidad no depende de abundancia de recursos técnicos, de sistemas o de conocimiento. Un modelo que solo funciona con requisitos de Centros de Excelencia no es escalable ni sostenible.
- La implementación clínica es extremadamente exigente. Los sistemas sanitarios están saturados, altamente regulados y priorizan la seguridad del paciente por encima de la innovación. Incorporar una nueva herramienta requiere evidencia sólida de beneficio neto, integración perfecta y carga de trabajo adicional tendente a cero.
Afortunadamente, si estás embarcado en algún proyecto de esta naturaleza, quizá todavía estés a tiempo de aplicar el checklist que propone Markowetz para que tu modelo sea útil. La lista de verificación rápida que todo equipo debería superar antes de ilusionarse demasiado.
- ¿El modelo aborda un end-point clínico claro, frecuente y prioritario?
- ¿Ayuda directamente a una decisión concreta?
- ¿Lo han validado clínicos de distintos perfiles?
- ¿El 80% de los datos de entrada se registran realmente en la práctica?
- ¿La interfaz puede usarla un residente sin formación adicional?
- ¿Añade valor real al juicio clínico actual o a los modelos existentes?
- ¿Existe un plan realista de implementación a tres años?
Si la respuesta honesta a alguna de estas preguntas no es un “sí” rotundo, el modelo tiene altísima probabilidad de quedarse en el cajón académico.
Pero superar el checklist es solo un punto de partida, es necesario contar con referentes más elaborados. Otros autores han analizado el problema y propuesto recomendaciones que pueden guiar a los desarrolladores. Así, Feng y colaboradores han elaborado una guía rigurosa para mejorar la calidad científica y práctica de los modelos, y puede traducirse en mensajes muy relevantes para los equipos de desarrollo[6]. Algunos puntos clave a destacar:
- Identificar la necesidad real antes de empezar, evitando modelos redundantes.
- Elegir predictores disponibles y estandarizados, no los más exóticos.
- Evitar tamaños muestrales insuficientes.
- Gestionar bien los datos faltantes y outliers, habituales en datos reales.
- Priorizar modelos interpretables cuando los rendimientos son similares.
- Incorporar un “Implementation roadmap” desde el día 1 del proyecto.
- Validación interna y —sobre todo— externa.
- Evaluar impacto, no solo discriminación y calibración.
En definitiva, llevar a la práctica real un modelo predictivo que aporte valor es una carrera de fondo que implica no solo tener músculo en ciencia de datos sino también en ciencia de la implementación y un sabio entendimiento de lo que necesitan clínicos, gestores y pacientes (que deberían ser partícipes activos de estos proyectos, no solo por consideraciones éticas sino también por su capacidad de poner el foco en “lo que realmente importa”).
Continuando nuestro periplo junto con Feng y su equipo hay cinco etapas clave desde el desarrollo hasta su aplicación clínica: primero, lograr una buena discriminación y calibración durante la validación interna; segundo, demostrar la transportabilidad y generalización a través de la validación externa; tercero, confirmar el impacto del modelo en la toma de decisiones de los profesionales; cuarto, evaluar el impacto del modelo en los resultados de los pacientes a través de la evaluación de impacto; y finalmente, garantizar una difusión efectiva del modelo y contar con el respaldo de líderes científicos y profesionales.
Volviendo a Box para concluir, los modelos nunca podrán capturar toda la complejidad del sistema y sus agentes. Eso no cambiará, tampoco es el objetivo. La clave es conseguir que los modelos sean útiles. En esa senda ya contamos con buenos casos de éxito, aprendamos de los mismos para evitar un desperdicio de recursos y conocimiento que no nos podemos permitir.
Referencias
[1] Orueta JF, Nuño-Solinis R, Mateos M, Vergara I, Grandes G, Esnaola S. Predictive risk modelling in the Spanish population: a cross-sectional study. BMC Health Serv Res. 2013;13:269.
[2] Coderch J, Sánchez-Pérez I, Ibern P, Carreras M, Pérez-Berruezo X, Inoriza JM. Predicción del riesgo individual de alto coste sanitario para la identificación de pacientes crónicos complejos. Gac Sanit. 2014;28(4):292-300.
[3] Estupiñán-Ramírez M, Tristancho-Ajamil R, Company-Sancho MC, Sánchez-Janáriz H. Comparación de modelos predictivos para la selección de pacientes de alta complejidad. Gac Sanit. 2019;33(1):60-65.
[4] Markowetz F. All models are wrong and yours are useless: making clinical prediction models impactful for patients. NPJ Precis Oncol. 2024;8(1):54.
[5] Bellou V, Belbasis L, Konstantinidis AK, Tzoulaki I, Evangelou E. Prognostic models for outcome prediction in patients with chronic obstructive pulmonary disease: systematic review and critical appraisal. BMJ. 2019;367:l5358.
[6] Feng G, Xu H, Wan S, et al. Twelve practical recommendations for developing and applying clinical predictive models. The Innovation Medicine. 2024; 2(4): 100105.
Foto de Yumu
