Avaluació i estat de maduresa dels dispositius mèdics basats en IA

07/01/2025

Introducció

La recerca en les aplicacions de la intel·ligència artificial (IA) en l’àmbit de la salut està experimentant un creixement accelerat, oferint noves oportunitats per a transformar l’atenció sanitària. Encara que la comunitat sanitària té un bon coneixement sobre com validar la qualitat predictiva o classificatòria dels models d’IA, manca més informació sobre com cal mesurar i assegurar l’impacte real d’aquestes tecnologies en la pràctica clínica, especialment quan tenen la consideració de dispositius mèdics. En aquest article, s’exploraran les dues fases clau en l’avaluació de dispositius mèdics basats en IA durant el seu desenvolupament: la validació dels models mitjançant dades retrospectives i l’avaluació del seu impacte en un entorn clínic real. Posteriorment, s’analitzarà l’estat de maduresa d’aquests sistemes, basant-nos en una anàlisi dels assajos clínics realitzats fins a la data.

Pot ser una IA considerada dispositiu mèdic?

La norma que regula els dispositius mèdics a la Unió Europea és el Reglament 2017/745 sobre productes sanitaris. Aquest document inclou els programes informàtics com a  productes sanitaris, sempre i quan es faci servir amb alguna de les següents finalitats:

  • Diagnòstic, prevenció, seguiment, predicció, pronòstic, tractament o alleujament d’una malaltia.
  • Diagnòstic, seguiment, tractament, alleujament o compensació d’una lesió o d’una discapacitat.
  • Recerca, substitució o modificació de l’anatomia o d’un procés o estat fisiològic o patològic.
  • Obtenció d’informació mitjançant l’examen in vitro de mostres procedents del cos humà, incloent-hi donacions d’òrgans, sang i teixits.

Per tant, una IA que es faci servir, per alguna d’aquestes finalitats, es considera un dispositiu mèdic.

Validacions i avaluacions dels dispositius mèdics basats en IA

Els Technology Readiness Levels (TRL) són una metodologia emprada per a avaluar el grau de maduresa d’una tecnologia al llarg del seu desenvolupament, des de la recerca bàsica fins a la realització de proves amb èxit en un entorn real, i consisteix en una escala de 9 nivells. En el context de dispositius mèdics, el cicle de la innovació en salut del CIMTI (Centre per a la Integració de la Medicina i les Tecnologies Innovadores) consta de 10 fases i proporciona un marc integral per a gestionar el procés de desenvolupament de dispositius mèdics de manera efectiva[1]. Les validacions i avaluacions de dispositius mèdics, d’acord amb aquestes dues metodologies, es duen a terme en els següents nivells o fases:

  • Nivells/fases 3-4 (Proves de Concepte): Durant aquestes primeres fases, es realitza la validació dels models amb dades retrospectives. S’utilitza per a provar la viabilitat dels algorismes d’IA amb dades històriques, validant la seva capacitat per a reconèixer patrons i fer prediccions amb dades ja existents. En aquestes fases es quantifiquen el rendiment del model i l’algorisme (AUC, sensibilitat, especificitat, etc.), costos computacionals, i mètriques rellevants per a l’usuari final (per exemple, nombre de falsos positius en les prediccions d’un sistema de recomanació).[2]
  • Nivells/fases 6-7 (Assajos Clínics): L’avaluació de l’efectivitat del dispositiu mèdic basat en IA es realitza durant aquestes fases més avançades, quan els prototips es proven en entorns clínics reals. És aquí on es verifica com el dispositiu respon a dades en temps real i s’avalua el seu impacte en la millora de la salut del pacient o l’eficiència del sistema d’atenció mèdica.

Els dispositius mèdics basats en intel·ligència artificial han de complir amb els requisits reguladors establerts per la Unió Europea en el Reglament (UE) 2017/745 sobre productes sanitaris[3] i el Reglament (UE) 2024/1689 sobre intel·ligència artificial[4]. El primer exigeix que els dispositius demostrin la seva seguretat i efectivitat a través d’avaluacions clíniques abans de poder ser comercialitzats. El segon reglament s’enfoca en la IA, obligant els desenvolupadors a assegurar que els models s’avaluïn de manera contínua per a reduir riscos. A més, en el cas d’IA d’alt risc (com els dispositius mèdics), és obligatori informar de la precisió del sistema en les instruccions d’ús. Tots dos marcs regulen tant la validació dels algorismes com l’avaluació del rendiment del dispositiu en entorns clínics, garantint la seva fiabilitat i seguretat per als pacients.

En quin nivell de maduresa es troben els dispositius mèdics basats en IA?

Si bé existeixen nombrosos models en fases de proves de concepte, validats amb dades retrospectives, una anàlisi dels assajos clínics realitzats per avaluar l’efectivitat de dispositius mèdics basats en IA ens serà molt més útil per comprendre el nivell de maduresa d’aquestes tecnologies.

Al maig d’aquest 2024 es publicava a la revista The Lancet Digital Health una revisió dels assajos controlats aleatoritzats (RCT) que avaluaven la intel·ligència artificial en pràctica clínica[5]. Aquesta revisió analitzava tan sols 86 RCTs publicats entre 2018 i 2023, després d’excloure models computacionals linears i models no integrats en pràctica clínica. El 81% d’aquests RCTs reportaven resultats primaris positius. Les principals especialitats en què s’usaven aquests models eren gastroenterologia (43%), radiologia (13%), cirurgia (6%) i cardiologia (6%). El 31% es van realitzar als Estats Units, i el 30% a la Xina. El 81% dels RCTs realitzats a la Xina eren de gastroenterologia (21 RCTs). Només el 8% dels estudis es van fer en més d’un país, principalment en països europeus. A més, el 63% dels RCTs es van fer en un sol centre, amb una mitjana de 359 pacients. El 69% dels RCTs avaluaven sistemes d’aprenentatge profund (deep learning) per imatge mèdica (principalment endoscòpies). Pel que fa als sistemes que utilitzaven dades estructurades, la majoria eren arbres de decisió (22%).

Cal tenir en compte, que aquest estudi només analitza els RCTs. Si bé els RCT són el gold standard en recerca clínica, existeixen altres dissenys d’estudi per a la realització d’assajos clínics que també poden demostrar l’efectivitat dels dispositius mèdics, que no es recullen en aquest estudi. Així mateix, també exclou models linears. Fent una cerca ràpida podem trobar algunes revisions que analitzen avaluacions d’impacte en pràctica clínica de dispositius mèdics basats en IA publicades durant el 2024 i enfocades a especialitats o procediments concrets. Per exemple, Wenderott et al. analitzen 48 estudis que avaluen l’impacte en l’eficiència de les IA en la imatge mèdica, i troben que en general ofereixen reduccions en el temps que els clínics dediquen a executar tasques (interpretació d’imatges, temps total per fer la colonoscòpia, etc.)[6]. Tanmateix, la heterogeneïtat dels estudis disponibles dificulta la realització d’inferències sobre l’eficàcia global en les tasques d’obtenció d’imatges.

Si ens fixem en el nostre entorn, l’estudi de maduresa de la IA en salut a Catalunya realitzat per la Fundació TIC Salut i Social el 2023, mostra que només el 32% del algorismes es troben en un entorn real (TRL 7-9).[7] Parlem d’entorn real quan l’algorisme està preparat per ser utilitzat en pràctica clínica. Només 5 (10%) es troben en un TRL 9, és a dir, s’han implantat amb èxit en un entorn real.

Conclusió

Per poder implementar un dispositiu mèdic en pràctica clínica, és necessari realitzar una primera avaluació amb dades retrospectives per a validar la capacitat predictiva o classificatòria dels models i, més tard, dur a terme una avaluació clínica que mesuri el seu impacte en la pràctica sanitària real. No obstant això, malgrat el progrés, l’escassetat d’assajos clínics a gran escala demostra que moltes d’aquestes tecnologies encara es troben en fases primerenques de desenvolupament. A mesura que augmenti el nombre de dispositius mèdics basats en IA que arribin a fases avançades del seu desenvolupament, serà necessari avaluar-ne no només el seu rendiment tècnic, sinó també el seu impacte en la pràctica clínica. Només així es podrà garantir que aquestes innovacions, una vegada adoptades, aportin un valor real a la salut dels pacients i a l’eficiència del sistema sanitari.


Referències

[1] Centre per a la Integració de la Medicina i les Tecnologies Innovadores (2023). La metodologia del CIMTI: el Cicle d’Innovació en Salut. https://cimti.cat/wp-content/uploads/2021/10/Metodologia-Cicle-Innovacio-en-Salut-2023.pdf

[2] Lavin A, Gilligan-Lee CM, Visnjic A, Ganju S, Newman D, Ganguly S, Lange D, Baydin AG, Sharma A, Gibson A, Zheng S, Xing EP, Mattmann C, Parr J, & Gal Y. (2022). Technology readiness levels for machine learning systems. Nature Communications, 13(1), 6039. https://doi.org/10.1038/s41467-022-33128-9

[3] Reglamento (UE) 2017/745 del Parlamento Europeo y del Consejo, de 5 de abril de 2017, sobre los productos sanitarios, por el que se modifican la Directiva 2001/83/CE, el Reglamento (CE) n.° 178/2002 y el Reglamento (CE) n.° 1223/2009 y por el que se derogan las Directivas 90/385/CEE y 93/42/CEE del Consejo (Texto pertinente a efectos del EEE. ), 117 OJ L (2017). http://data.europa.eu/eli/reg/2017/745/oj/spa

[4] Reglamento (UE) 2024/1689 del Parlamento Europeo y del Consejo, de 13 de junio de 2024, por el que se establecen normas armonizadas en materia de inteligencia artificial y por el que se modifican los Reglamentos (CE) n.° 300/2008, (UE) n.° 167/2013, (UE) n.° 168/2013, (UE) 2018/858, (UE) 2018/1139 y (UE) 2019/2144 y las Directivas 2014/90/UE, (UE) 2016/797 y (UE) 2020/1828 (Reglamento de Inteligencia Artificial) (Texto pertinente a efectos del EEE) (2024). http://data.europa.eu/eli/reg/2024/1689/oj/spa

[5] Han R, Acosta JN, Shakeri Z, Ioannidis JPA, Topol EJ, & Rajpurkar P. (2024). Randomised controlled trials evaluating artificial intelligence in clinical practice: A scoping review. The Lancet Digital Health, 6(5), e367-e373. https://doi.org/10.1016/S2589-7500(24)00047-5

[6] Wenderott K, Krups J, Zaruchas F, & Weigl M. (2024). Effects of artificial intelligence implementation on efficiency in medical imaging-a systematic literature review and meta-analysis. NPJ Digital Medicine, 7(1), 265. https://doi.org/10.1038/s41746-024-01248-9

[7] Fundació TIC Salut Social. (2023). Estudi de maduresa de la intel·ligència artificial en salut en els centres de recerca de Catalunya. https://iasalut.cat/wp-content/uploads/2023/03/Informe_IA_Centres-de-Recerca.pdf

Imatge: Fundació TIC Salut Social

Comparteix: