Vidal⎜Développement d'un assistant médical basé sur l'IA Générative

Overview du projet

LE Contexte

Vidal, plateforme de référence de l’information médicale sur les produits de santé depuis plus de 100 ans, doit moderniser et digitaliser ses services afin de maintenir sa position de leader et de rester compétitif. Ils veulent entrer dans l’aire du fonctionnel, c’est à dire fournir directement la réponse à une question précise, en un temps record.

L’IA générative est le moyen le plus efficace pour répondre à ce challenge, et permettre aux professionnels de santé de se concentrer sur leur temps de soin. Il est essentiel d’évaluer les opportunités d’utilisation de ces outils. Vidal a donc besoin de démontrer rapidement l’intérêt d’investir dans ces nouvelles technologies.

L'accompagnement DE THEODO

Le groupe Theodo (Hokla et Sicara) accompagne Vidal dans le développement de son assistant de recherche basé sur l’IA Générative. En travaillant étroitement avec des médecins pour construire le modèle, nous avons constitué un dataset de 100 questions afin de le valider et d’assurer son adoption.

À partir des monographies Vidal, l’équipe a développé un assistant avec une architecture RAG sur-mesure, techniquement capable de formuler une réponse structurée avec la DCI (Dénomination Commune Internationale), d’afficher le lien direct avec la/les monographie(s) utilisée(s), tout en surlignant les passages spécifiques utilisés dans la réponse.

les résultats

En seulement 8 semaines, l’équipe a conçu ce POC qui fournit 90% de bonnes réponses et 0 mauvaise réponse. Grâce à du pré-prompting intégré au RAG, qui permet de préciser automatiquement les requêtes, le modèle fournit une réponse basée sur l’analyse de tous les documents, réduisant ainsi les risques d’erreurs de prescription.

Détails du projet

Le challenge client

L’évolution de la médecine entraine l’évolution des méthodes de prise en charge : on tend vers des médecines de plus en plus personnalisées. Les professionnels de santé ont besoin d’informations sur les nouveaux protocoles de prise en charge et sur les nouvelles molécules pour les maladies émergentes. Selon l’audition de MM, environ 140 000 hospitalisations seraient provoquées par des accidents médicamenteux, avec 13 000 décès avérés en France.

Vidal est la référence pour les professionnels de santé en manière d’informations médicale. Cependant, les documents peuvent être longs et complexes. Le challenge est donc de développer une solution qui apporte directement une réponse fiable et précise au PDS, afin d’optimiser le temps médical.

L’enjeu de Vidal est d’évaluer les opportunités que présentent les LLM (Large Language Models) pour la recherche médicamenteuse, avec de fortes contraintes : fiabilité de l’information et des réponses 100% correctes (problématique connues des LLMs).

Notre proposition a donc été de créer un assistant de recherche basé sur l’IA Générative qui puisse, à partir de l’ensemble de monographies Vidal, répondre aux questions des professionnels de santé en un temps record, en assurant la véracité des informations. Au delà des challenges techniques liés à la donnée, il y a un réel enjeu d’adoption du produit par les PDS, d’où l’importance de co-construire l’outil avec eux et de faire constamment des interviews utilisateurs.

Notre approche méthodologique

Le POC (Proof Of Concept) se base sur une architecture RAG (Retrieval Augmented Generation) pour permettre la génération de réponses pertinentes qui s’appuient sur des sources fiables.

‍Passer d’une réponse longue sans sources à un modèle adaptable et fiable.

Pour évaluer les réponses, nous avons élaboré un dataset de 100 questions avec des médecins, qui sera testé tout au long du projet pour valider la fiabilité du modèle. Une notation en 3 niveaux a été mise en place :

OK : la réponse donnée est considérée comme correcte par le PDS,
Je ne sais pas : le modèle indique clairement qu’il n’a pas la réponse,
KO : la réponse est incomplète, contient une fausse information, ou précise de “consulter un médecin”.

Après une première itération utilisant ChatGPT-4 uniquement, la performance est satisfaisante, mais largement insuffisante. Les erreurs les plus courantes : indiquer de consulter un médecin, lire la notice, source manquante.
Afin de monitorer les requêtes réalisée, l’équipe a implémenté LangSmith.

À partir de ces premiers résultats et analyses, 2 améliorations majeures ont pu être réalisées :
‍
1. Le découpage des chunks par section plutôt qu’en “naïf” pour faciliter le retrieval, pour que l’informations dans la encodée soit plus cohérente. Cela a amélioré le taux de réponses OK de 41% à 51%.

2. L’ajout de la Dénomination Commune Internationale (DCI) en reformulant la question. Sous l’impulsion du Product Owner sur le projet, et grâce à la fonction Playground de LangSmith, l’équipe a pu faire évoluer le prompt initial pour ajouter les DCI, faisant ainsi passer le taux de réponses OK de 51% à 90% !

C’est donc ce modèle amélioré par l’ensemble de l’équipe, qui intègre ChatGPT-4 et du pre-prompting dans notre RAG, qui a permis de faire totalement disparaitre les réponses incorrectes, et de passer à 90% de bonnes réponses. La RAG est désormais la suivante :

La dernière étape était de s’assurer de l’adoption du produit par les professionnels de santé. En se basant sur la théorie de Marty Cagan, l’équipe se concentre sur le risque d’usability pour mettre en place les dernières améliorations.

Pour assurer la confiance des PDS sur ce modèle, les monographies et les passages utilisés pour générer la réponse sont clairement affichés.

C’est grâce à l’implémentation de Chainlit et au plugin Chainlit-React que nous avons pu construire rapidement un Frontend dédié et de parser les HTML pour afficher les monographies.

Grâce aux fonctions OpenAI et à des balises HTML <mark>, nous avons surligné les passages précis utilisés pour générer la réponse, donnant un accès direct à la source de vérité.

Grâce à cette première version du modèle, le PDS obtient une réponse 4 fois plus rapidement, qui se base sur +30.000 monographies, ce qui garanti la fiabilité et richesse des informations.

La composition d’une équipe hybride (un product owner spécialisé en santé, un expert data - GenAI, un expert web) et le travail commun avec des médecins nous ont permis de valider continuellement le modèle et d’être agiles dans la priorisation des features à développer. Cette première version de l’assistant est donc un succès, car nous avons atteint le 0% de mauvaises réponses (sur le dataset de 100 questions) à la fin du POC.

À date, l’évaluation du modèle se fait manuellement avec des professionnels de santé, ce qui limite la taille du dataset et la fréquence de réévaluation.

Un premier enjeu est donc de mettre en place un système d’évaluation automatique afin d’élargir le dataset de questions à 10 000 questions cernées d’ici au 1er janvier 2025. Pour cela, 2 challenges s’ouvrent à nous :

Mettre en place des métriques automatiques pour le retrieval ou via du LLM as a judge,
Avoir un dataset d’évaluation et de test.

Le 2ème enjeu sera l’usabilité et l’adoption de l’outil par les professionnels de santé : trouver la meilleure manière de l’intégrer dans leurs pratiques et qu’ils aient 100% confiance.

Enfin, le 3ème enjeu à venir est la scalabilité : les coûts avec OpenAi seront importants (une requête coûte aujourd’hui 10 centimes), et pour que l’utilisation du modèle se développe, nous devrons étudier les alternatives de modèles OpenSource (comme Mistral AI par exemple) pour assurer la rentabilité du modèle.

Overview du projet

LE Contexte

L'accompagnement DE THEODO

les résultats

Détails du projet

Pour évaluer les réponses, nous avons élaboré un dataset de 100 questions avec des médecins, qui sera testé tout au long du projet pour valider la fiabilité du modèle. Une notation en 3 niveaux a été mise en place :

Ce qu'ils en ont pensé

Parlez-nous de vos projets
HealthTech

Nos offres

Overview du projet

LE Contexte

L'accompagnement DE THEODO

les résultats

Détails du projet

Pour évaluer les réponses, nous avons élaboré un dataset de 100 questions avec des médecins, qui sera testé tout au long du projet pour valider la fiabilité du modèle. Une notation en 3 niveaux a été mise en place :

Ce qu'ils en ont pensé

Parlez-nous de vos projets HealthTech

Nos offres

Parlez-nous de vos projets
HealthTech