Tots els models predictius són erronis… i el teu és inútil

22/12/2025

“All models are wrong, but some are useful”, és una frase atribuïda a l’estadístic George Box. Tot i que comença amb una afirmació provocadora, ens quedem amb la segona part de la frase que, en el fons, és allò que ens importa i preocupa en gestió sanitària.

Tanmateix, aquesta aparent tranquil·litat que ens brinda saber que un bon nombre de models predictius estan sent útils i han esdevingut eines de decisió imprescindibles contrasta amb la realitat del que succeeix “aigües amunt” en el procés de desenvolupament dels mateixos[1] [2] [3]. Així, un reconegut expert en models de predicció clínica com és Florien Markowetz va publicar l’any passat a NPJ Precision Oncology un paper amb un títol molt més agressiu que la frase original de Box: “All models are wrong and yours are useless: making clinical prediction models impactful for patients”.[4]

L’autor argumenta detalladament la seva crítica i aporta un bon nombre d’exemples, entre els quals cita una revisió de models predictius a MPOC que identifica més de quatre-cents amb manca de validació externa i ús anecdòtic en pràctica real[5]. L’avaluació d’impacte dels mateixos ni està ni se l’espera.

“Això segur que ho arregla la IA” ens ve ràpid al cap com a solució miraculosa. La realitat és una altra. El desenvolupament de models predictius amb tècniques d’intel·ligència artificial ha accentuat el problema, escassa millora -tret de notables excepcions- respecte als models convencionals i avenços limitats en aplicabilitat. Els models basats en IA solen patir de sobreajustament, cosa que en limita la generalització; la seva complexitat i naturalesa de “caixa negra” dificulta la interpretació clínica, minant la confiança dels professionals; i la seva dependència de grans volums de dades xoca frontalment amb la realitat fragmentada i sorollosa dels entorns clínics rutinaris. En definitiva, la IA no escapa a les regles d’or de la utilitat predictiva: sense transparència, integrabilitat i un vincle directe amb una acció clínica, la seva superioritat tècnica acaba sent irrellevant a la pràctica. No s’han publicat mai tants models i, tanmateix, molt pocs arriben al punt on realment importen: canviar decisions clíniques i millorar resultats en persones reals. Lèxit acadèmic no és èxit clínic.

Els gestors sanitaris estem entrant en una era on desenes d’empreses consultores, tecnològiques i centres de recerca ofereixen “models predictius” que prometen optimitzar processos, anticipar esdeveniments adversos, predir el deteriorament clínic i funcional, segmentar els pacients en grups amb significat clínic i personalitzar l’atenció incorporant ilimitades variables i biomarcadors… És difícil no veure’s atret i patir un FOMO considerable. Però què hauríem d’exigir a aquests projectes? Com ​​saber si un model suposarà una millora real en la qualitat de les decisions clíniques i de gestió o estem davant d’un elegant esforç acadèmic sense aplicabilitat pràctica?

Markowetz ens aporta algunes claus rellevants. Analitza per què tants models acaben al calaix, fins i tot quan les seves mètriques estadístiques són excel·lents. Les seves cinc observacions encaixen amb el que veiem cada dia a les nostres organitzacions:

  1. Com ja hem esmentat: “l’èxit acadèmic no equival a l’èxit clínic”. Les regles actuals de carrera investigadora premien la novetat, l’originalitat i la complexitat tècnica per sobre de la implementació real.
  2. Els models que triomfen utilitzen exclusivament dades disponibles de forma rutinària a la pràctica clínica diària. Si el model requereix proves o escales no integrades, la probabilitat d’adopció cau en picat.
  3. Els models útils estan lligats a una acció clínica concreta i accionable. No n’hi ha prou amb estratificar risc; el professional necessita saber exactament què canviar en la decisió immediata.
  4. La utilitat veritable es demostra quan l’aplicabilitat no depèn d’abundància de recursos tècnics, de sistemes o de coneixement. Un model que només funciona amb requisits de Centres d’Excel·lència no és escalable ni sostenible.
  5. La implementació clínica és extremadament exigent. Els sistemes sanitaris estan saturats, altament regulats i prioritzen la seguretat del pacient per sobre de la innovació. Incorporar una nova eina requereix evidència sòlida de benefici net, integració perfecta i càrrega de treball addicional tendent a zero.

Afortunadament, si estàs embarcat en algun projecte d’aquesta naturalesa, potser encara ets a temps d’aplicar el checklist que proposa Markowetz perquè el teu model sigui útil. La llista de verificació ràpida que tot equip hauria de superar abans d’il·lusionar-se massa.

  • El model aborda un end-point clínic clar, freqüent i prioritari?
  • Ajuda directament una decisió concreta?
  • Ho han validat clínics de diferents perfils?
  • El 80% de les dades d’entrada es registren realment a la pràctica?
  • La interfície pot fer-la servir un resident sense formació addicional?
  • Afegeix valor real al judici clínic actual o als models existents?
  • Hi ha un pla realista d’implementació a tres anys?

Si la resposta honesta a alguna d’aquestes preguntes no és un “sí” rotund, el model té altíssima probabilitat de quedar-se al calaix acadèmic.

Però superar el checklist és només un punt de partida, cal comptar amb referents més elaborats. Altres autors han analitzat el problema i proposat recomanacions que poden guiar els desenvolupadors. Així, Feng i col·laboradors han elaborat una guia rigorosa per millorar la qualitat científica i pràctica dels models, i es pot traduir en missatges molt rellevants per als equips de desenvolupament[6]. Alguns punts clau a destacar:

  • Identificar la necessitat real abans de començar i evitar models redundants.
  • Triar predictors disponibles i estandarditzats, no els més exòtics.
  • Evitar mides mostrals insuficients.
  • Gestionar bé les dades que falten i outliers, habituals en dades reals.
  • Prioritzar models interpretables quan els rendiments són semblants.
  • Incorporar un “Implementation roadmap” des del primer dia del projecte.
  • Validació interna i —sobretot— externa.
  • Avaluar impacte, no només discriminació i calibratge.

En definitiva, portar a la pràctica real un model predictiu que aporti valor és una carrera de fons que implica no només tenir múscul en ciència de dades sinó també en ciència de la implementació i una sabia entesa del que necessiten clínics, gestors i pacients (que haurien de ser partícips actius d’aquests projectes, no només per consideracions ètiques sinó també per la seva capacitat de posar).

Continuant el nostre periple juntament amb Feng i el seu equip, hi ha cinc etapes clau des del desenvolupament fins a la seva aplicació clínica: primer, aconseguir una bona discriminació i calibratge durant la validació interna; segon, demostrar la transportabilitat i la generalització a través de la validació externa; tercer, confirmar l’impacte del model en la presa de decisions dels professionals; quart, avaluar l’impacte del model en els resultats dels pacients a través de l’avaluació d’impacte; i finalment, garantir una difusió efectiva del model i comptar amb el suport de líders científics i professionals.

Tornant a Box per concloure, els models mai no podran capturar tota la complexitat del sistema i els seus agents. Això no canviarà, tampoc no és l’objectiu. La clau és aconseguir que els models siguin útils. En aquest camí ja comptem amb bons casos d’èxit, aprenguem per evitar un malbaratament de recursos i coneixement que no ens podem permetre.

Referències


[1] Orueta JF, Nuño-Solinis R, Mateos M, Vergara I, Grandes G, Esnaola S. Predictive risk modelling in the Spanish population: a cross-sectional study. BMC Health Serv Res. 2013;13:269.

[2] Coderch J, Sánchez-Pérez I, Ibern P, Carreras M, Pérez-Berruezo X, Inoriza JM. Predicción del riesgo individual de alto coste sanitario para la identificación de pacientes crónicos complejos. Gac Sanit. 2014;28(4):292-300.

[3] Estupiñán-Ramírez M, Tristancho-Ajamil R, Company-Sancho MC, Sánchez-Janáriz H. Comparación de modelos predictivos para la selección de pacientes de alta complejidad. Gac Sanit. 2019;33(1):60-65.

[4] Markowetz F. All models are wrong and yours are useless: making clinical prediction models impactful for patients. NPJ Precis Oncol. 2024;8(1):54.

[5] Bellou V, Belbasis L, Konstantinidis AK, Tzoulaki I, Evangelou E. Prognostic models for outcome prediction in patients with chronic obstructive pulmonary disease: systematic review and critical appraisal. BMJ. 2019;367:l5358.

[6] Feng G, Xu H, Wan S, et al. Twelve practical recommendations for developing and applying clinical predictive models. The Innovation Medicine. 2024; 2(4): 100105.

Foto de Yumu

Comparteix: