Evaluación y estado de madurez de los dispositivos médicos basados ​​en IA

07/01/2025

Introducción

La investigación en las aplicaciones de la inteligencia artificial (IA) en el ámbito de la salud está experimentando un crecimiento acelerado, ofreciendo nuevas oportunidades para transformar la atención sanitaria. Aunque la comunidad sanitaria tiene un buen conocimiento sobre cómo validar la calidad predictiva o clasificatoria de los modelos de IA, falta más información sobre cómo medir y asegurar el impacto real de estas tecnologías en la práctica clínica, especialmente cuando tienen la consideración de dispositivos médicos. En este artículo, se explorarán las dos fases clave en la evaluación de dispositivos médicos basados ​​en IA durante su desarrollo: la validación de los modelos mediante datos retrospectivos y la evaluación de su impacto en un entorno clínico real. Posteriormente, se analizará el estado de madurez de estos sistemas, basándonos en un análisis de los ensayos clínicos realizados hasta la fecha.

¿Puede ser una IA considerada como dispositivo médico?

La norma reguladora de los dispositivos médicos en la Unión Europea es el Reglamento 2017/745 sobre productos sanitarios. Este documento incluye los programas informáticos como productos sanitarios, siempre y cuando se utilice con alguna de las siguientes finalidades:

  • Diagnóstico, prevención, seguimiento, predicción, pronóstico, tratamiento o alivio de una enfermedad.
  • Diagnóstico, seguimiento, tratamiento, alivio o compensación de una lesión o una discapacidad.
  • Búsqueda, sustitución o modificación de la anatomía o de un proceso o estado fisiológico o patológico.
  • Obtención de información mediante el examen in vitro de muestras procedentes del cuerpo humano, incluyendo donaciones de órganos, sangre y tejidos.

Por tanto, una IA que se utilice, para alguna de estas finalidades, se considera un dispositivo médico.

Validaciones y evaluaciones de los dispositivos médicos basados ​​en Inteligencia Artificial

Los Technology Readiness Levels (TRLs) son una metodología empleada para evaluar el grado de madurez de una tecnología a lo largo de su desarrollo, desde la investigación básica hasta la realización de pruebas con éxito en un entorno real, y consiste en una escalera de 9 niveles. En el contexto de dispositivos médicos, el ciclo de la innovación en salud del CIMTI (Centro para la Integración de la Medicina y las Tecnologías Innovadoras) consta de 10 fases y proporciona un marco integral para gestionar el proceso de desarrollo de dispositivos médicos de modo efectivo[1]. Las validaciones y evaluaciones de dispositivos médicos, de acuerdo con estas dos metodologías, se llevan a cabo en los siguientes niveles o fases:

  • Niveles/fases 3-4 (Pruebas de Concepto): Durante estas primeras fases, se realiza la validación de los modelos con datos retrospectivos. Se utiliza para probar la viabilidad de los algoritmos de IA con datos históricos, validando su capacidad para reconocer patrones y realizar predicciones con datos ya existentes. En estas fases se cuantifican el rendimiento del modelo y el algoritmo (AUC, sensibilidad, especificidad, etc.), costes computacionales, y métricas relevantes para el usuario final (por ejemplo, número de falsos positivos en las predicciones de un sistema de recomendación).[2]

  • Niveles/fases 6-7 (Ensayos Clínicos): La evaluación de la efectividad del dispositivo médico basado en IA se realiza durante estas fases más avanzadas, cuando los prototipos se prueban en entornos clínicos reales. Es aquí donde se verifica cómo el dispositivo responde a datos en tiempo real y se evalúa su impacto en la mejora de la salud del paciente o la eficiencia del sistema de atención médica.

Los dispositivos médicos basados ​​en inteligencia artificial deben cumplir con los requisitos reguladores establecidos por la Unión Europea en el Reglamento (UE) 2017/745 sobre productos sanitarios[3] y el Reglamento (UE) 2024/1689 sobre inteligencia artificial[4]. El primero exige que los dispositivos demuestren su seguridad y efectividad a través de evaluaciones clínicas antes de poder ser comercializados. El segundo reglamento se enfoca en la IA, obligando a los desarrolladores a asegurar que los modelos se evalúen de forma continua para reducir riesgos. Además, en el caso de IA de alto riesgo (como dispositivos médicos), es obligatorio informar de la precisión del sistema en las instrucciones de uso. Ambos marcos regulan tanto la validación de los algoritmos como la evaluación del rendimiento del dispositivo en entornos clínicos garantizando su fiabilidad y seguridad para los pacientes.

¿En qué nivel de madurez se encuentran los dispositivos médicos basados ​​en IA?

Aunque existen numerosos modelos en fases de pruebas de concepto, validados con datos retrospectivos, un análisis de los ensayos clínicos realizados para evaluar la efectividad de dispositivos médicos basados ​​en IA nos será mucho más útil para comprender el nivel de madurez de estas tecnologías.

En mayo de 2024 se publicaba en la revista The Lancet Digital Health una revisión de los ensayos controlados aleatorizados (RCT) que evaluaban la inteligencia artificial en práctica clínica[5]. Esta revisión analizaba tan sólo 86 RCTs publicados entre 2018 y 2023, tras excluir modelos computacionales lineares y modelos no integrados en práctica clínica. El 81% de estos RCT reportaban resultados primarios positivos. Las principales especialidades en las que se usaban estos modelos eran gastroenterología (43%), radiología (13%), cirugía (6%) y cardiología (6%). El 31% se realizaron en Estados Unidos, y el 30% en China. El 81% de los RCTs realizados en China eran de gastroenterología (21 RCTs). Sólo el 8% de los estudios se realizaron en más de un país, principalmente en países europeos. Además, el 63% de los RCTs se realizaron en un solo centro, con una media de 359 pacientes. El 69% de los RCTs evaluaban sistemas de aprendizaje profundo (deep learning) por imagen médica (principalmente endoscopias). Por lo que respecta a los sistemas que utilizaban datos estructurados, la mayoría eran árboles de decisión (22%).

Hay que tener en cuenta que este estudio sólo analiza los RCTs. Aunque los RCT son el gold standard en investigación clínica, existen otros diseños de estudio para la realización de ensayos clínicos que también pueden demostrar la efectividad de los dispositivos médicos, que no se recogen en este estudio. Asimismo, también excluye modelos lineares. Haciendo una búsqueda rápida podemos encontrar algunas revisiones que analizan evaluaciones de impacto en práctica clínica de dispositivos médicos basados ​​en IA publicadas durante 2024 y enfocadas a especialidades o procedimientos concretos. Por ejemplo, Wenderott et al. analizan 48 estudios que evalúan el impacto en la eficiencia de las IA en la imagen médica, y encuentran que en general ofrecen reducciones en el tiempo que los clínicos dedican a ejecutar tareas (interpretación de imágenes, tiempo total para realizar la colonoscopia, etc.)[6]. Sin embargo, la heterogeneidad de los estudios disponibles dificulta la realización de inferencias sobre la eficacia global en las labores de obtención de imágenes.

Si nos fijamos en nuestro entorno, el estudio de madurez de la IA en salud en Cataluña realizado por la Fundación TIC Salud y Social en 2023 muestra que sólo el 32% de los algoritmos se encuentran en un entorno real (TRL 7-9).[7] Hablamos de entorno real cuando el algoritmo está preparado para ser utilizado en práctica clínica. Sólo 5 (10%) se encuentran en un TRL 9, es decir, se han implantado con éxito en un entorno real.

Conclusión

Para poder implementar un dispositivo médico en práctica clínica, es necesario realizar una primera evaluación con datos retrospectivos para validar la capacidad predictiva o clasificatoria de los modelos y, más tarde, llevar a cabo una evaluación clínica que mida su impacto en la práctica sanitaria real. Sin embargo, a pesar del progreso, la escasez de ensayos clínicos a gran escala demuestra que muchas de estas tecnologías todavía se encuentran en fases tempranas de desarrollo. A medida que aumente el número de dispositivos médicos basados ​​en IA que lleguen a fases avanzadas de su desarrollo, será necesario evaluar no sólo su rendimiento técnico, sino también su impacto en la práctica clínica. Sólo así podrá garantizarse que estas innovaciones, una vez adoptadas, aporten un valor real a la salud de los pacientes ya la eficiencia del sistema sanitario.


Referencias

[1] Centre per a la Integració de la Medicina i les Tecnologies Innovadores (2023). La metodologia del CIMTI: el Cicle d’Innovació en Salut. https://cimti.cat/wp-content/uploads/2021/10/Metodologia-Cicle-Innovacio-en-Salut-2023.pdf

[2] Lavin A, Gilligan-Lee CM, Visnjic A, Ganju S, Newman D, Ganguly S, Lange D, Baydin AG, Sharma A, Gibson A, Zheng S, Xing EP, Mattmann C, Parr J, & Gal Y. (2022). Technology readiness levels for machine learning systems. Nature Communications, 13(1), 6039. https://doi.org/10.1038/s41467-022-33128-9

[3] Reglamento (UE) 2017/745 del Parlamento Europeo y del Consejo, de 5 de abril de 2017, sobre los productos sanitarios, por el que se modifican la Directiva 2001/83/CE, el Reglamento (CE) n.° 178/2002 y el Reglamento (CE) n.° 1223/2009 y por el que se derogan las Directivas 90/385/CEE y 93/42/CEE del Consejo (Texto pertinente a efectos del EEE. ), 117 OJ L (2017). http://data.europa.eu/eli/reg/2017/745/oj/spa

[4] Reglamento (UE) 2024/1689 del Parlamento Europeo y del Consejo, de 13 de junio de 2024, por el que se establecen normas armonizadas en materia de inteligencia artificial y por el que se modifican los Reglamentos (CE) n.° 300/2008, (UE) n.° 167/2013, (UE) n.° 168/2013, (UE) 2018/858, (UE) 2018/1139 y (UE) 2019/2144 y las Directivas 2014/90/UE, (UE) 2016/797 y (UE) 2020/1828 (Reglamento de Inteligencia Artificial) (Texto pertinente a efectos del EEE) (2024). http://data.europa.eu/eli/reg/2024/1689/oj/spa

[5] Han R, Acosta JN, Shakeri Z, Ioannidis JPA, Topol EJ, & Rajpurkar P. (2024). Randomised controlled trials evaluating artificial intelligence in clinical practice: A scoping review. The Lancet Digital Health, 6(5), e367-e373. https://doi.org/10.1016/S2589-7500(24)00047-5

[6] Wenderott K, Krups J, Zaruchas F, & Weigl M. (2024). Effects of artificial intelligence implementation on efficiency in medical imaging-a systematic literature review and meta-analysis. NPJ Digital Medicine, 7(1), 265. https://doi.org/10.1038/s41746-024-01248-9

[7] Fundació TIC Salut Social. (2023). Estudi de maduresa de la intel·ligència artificial en salut en els centres de recerca de Catalunya. https://iasalut.cat/wp-content/uploads/2023/03/Informe_IA_Centres-de-Recerca.pdf

Imagen: Fundación TIC Salut Social

Comparte: