Un projet national français de LLM (IA générative) dédié à la santé

publié le 2 décembre 2024

6,9 millions d’euros. Telle est la hauteur du budget qu’alloue la France à un projet, d’une durée de deux ans, baptisé “Partages”, qui a pour ambition de “démocratiser l’utilisation de l’IA générative en santé”. Le but est de “développer des solutions d’analyse automatique des langues spécifiques au domaine médical”. Autrement dit, des solutions de type LLM (grands modèles de langage) à la mode ChatGPT mais plus spécifiquement adaptés aux particularités des terminologies voire jargons  médicaux.

Exemples de domaines d’applications : transcription de consultations, résumé de dossiers médicaux, assistance aux tâches médico-administratives et cliniques, génération de contenus pédagogiques destinés à la formation. 

Ce projet, piloté par le Health Data Hub, repose sur pas moins de 32 partenaires, dont de nombreux hôpitaux et quelques universités. Sans compter le CRNS et l’INRIA (Institut national de recherche en sciences et technologies du numérique).

Côté privé commercial, les partenaires sont les sociétés Mistral AI, spécialisée dans le développement de grands modèles de langage, et reciTAL, éditeur de logiciel de traitement automatique des documents.

Concrètement, le projet devra déboucher sur le développement d’un LLM adapté spécifiquement au secteur de la santé, qui servira de socle pour la création d’une série d’outils.

Le LLM sera mis au point par les Laboratoires d’informatique des universités d’Avignon et de Grenoble), le Laboratoire d’Informatique et des Systèmes d’Aix-Marseille), Le laboratoire des Sciences du Numérique de Nantes, le Centre de recherche sur la santé des populations de Bordeaux, des équipes de l’AP-HP et des spécialistes opérant pour la start-up Mistral AI.

Les outils et solutions open source qui s’appuieront sur ce LLM visent divers cas d’usage. Il s’agira en l’occurrence d’un outil de pseudonymisation automatique des données textuelles, de deux solutions d’assistance aux tâches médico-administratives, d’un outil pédagogique destiné à la formation des étudiants en médecine, de deux outils d’analyse et de structuration des données médicales. A cela s’ajoute encore une plate-forme nationale d’évaluation fédérée, chargée d’évaluer les algorithmes développés et de les exécuter “sur des données réelles provenant

de l’ensemble des établissements de santé partenaires”.

Source : CRNS

Le communiqué de presse reprenant les détails du projet et de ses participants peut être téléchargé via ce lien.