Face au manque de “données massives”, la piste des “patients artificiels”

publié le 14 août 2024

On le sait, l’IA est avide de “données massives”, souvent une condition sine qua non pour approvisionner et former efficacement les modèles et algorithmes qui permettront aux outils AI de fournir des résultats probants, crédibles et pertinents.

En matière de santé, certains pays – ou acteurs – bénéficient d’une réserve de données plus confortable – soit du seul fait de l’abondance de population ou en raison de législations moins regardantes en termes de respect de la vie privée ou des droits des patients. Face à une rareté (relative) de données, les moins bien lotis ont le recours de se tourner vers le concept de “patients artificiels” (on devrait rencontrer de plus en plus ce concept, ou ses cousins que sont “cohortes artificielles” (1), “données de santé artificielles”…).

De quoi s’agit-il ? Les données de santé dites artificielles sont générées ”artificiellement” par des modèles d’apprentissage automatique (machine learning) sur base de données réelles telles que données d’imagerie médicale, données tabulaires (poids, taille, glycémie, etc.) provenant d’une cohorte de patients recrutés pour les besoins, par exemple, d’une l’étude. L’idée est donc de “simuler” des patients les plus réalistes possibles, qui viendront ainsi compléter des cohortes bien réelles.

Les débouchés potentiels sont multiples et variés en matière d’IA appliquée au domaine de la santé : préparation et conduite d’essais cliniques, aide au diagnostic, aide à la personnalisation des traitements, identification de populations ciblées, accompagnement de la formation médicale, simulation de propagation d’épidémies, tests techniques de systèmes informatiques…

Avantages espérés : exploitation au départ de socles de données réelles moins importantes, gains de temps dans la constitution de cohortes, économies financières.

Exemple récent : la décision de l’hôpital Foch (banlieue de Paris) de se tourner vers cette technique afin de mener un projet visant à démontrer son utilité pour “enrichir” les essais cliniques. Partenaire industriel pour l’occasion : la start-up BOTdesign (Toulouse), spécialisée en IA générative et chatbots.

Objectif annoncé : “finaliser des essais cliniques non conclusifs ou abandonnés et réalisation de plusieurs preuves de concept pour démontrer l’efficacité de cette méthodologie en Europe”.

Un processus de vérification de la fiabilité des données générées artificiellement sera mis en oeuvre via constitution d’un comité de garantie humaine.

(1) Petite précision terminologique : à ne pas confondre “cohortes augmentées” et “cohortes synthétiques”. Les premières sont constituées de patients bien réels et de patients artificiels. Les secondes s’appuient sur des données réelles recyclées, provenant de patients ayant été repris dans des cohortes antérieures.

BOTdesign a publié un livre blanc sur le concept de “patients artificiels”, intitulé “Données de santé artificielles : analyse et postes de réflexion”. Il est téléchargeable via ce lien.