Ce projet a été mené dans l’enceinte du Centre Léon Bérard (CLB) à Lyon (France) sous la direction du cancérologue Dr Pierre Etienne Heudel, par Thibaut Chataing, Data scientist chez PALO IT, au sein de l’équipe Data Factory dirigé par le responsable d’exploitation et d’intelligence artificielle (IA) Hugo Crochet.
Lors d’une discussion avec l’oncologue Dr. Heudel, nous avons identifié un challenge mêlant intelligence artificiel et médical : peut-t-on prédire la réponse d’un patient à un traitement par immunothérapie ?
Dans le cadre de notre démarche ‘Tech for Good’ nous avons proposé une formule de 5 sprints d’exploration pour joindre nos expertises afin d’acquérir de nouvelles connaissances sur les réactions aux traitements. Cinq semaines, c’est très court. Afin d’en tirer un maximum, nous fonctionnons par itérations d’une semaine, avec un point hebdomadaire avec l’utilisateur final : de cette manière nous pouvons réorienter l’exploration et les approches en fonction des besoins et des retours du médecin.
Voici ce que moi Thibaut Chataing, j'aurais raconté de cette expérience si je n’avais que 30 secondes. Bien entendu cela ne relate pas les péripéties qui ont fait de ce projet une vraie expérience ô combien intéressante.
Harmoniser les données
L’aventure commence par une discussion très importante avec le Dr Heudel. Je dois comprendre le projet. Par comprendre je veux dire être capable de donner un sens à des mots comme “immunothérapie”, “creatinine” ou “albumine”. Cet échange me permet de voir ce qui se trouve dans la donnée mise à ma disposition. On y trouve deux cohortes de patients qui ont été soumis à l’immunothérapie. Sur chaque patient, je connais l’évolution du cancer, la réponse au traitement, ainsi que de nombreux résultats de tests biologiques (par exemple, le taux de globule rouge). C’est lors de cette étape-là que je rencontre un des plus gros enjeux du médical : la qualité de la donnée. Elle provient de sources (laboratoires d’analyse par exemple) différentes et elle passe dans les mains de nombreux acteurs ; ce qui la rend très hétérogène. C’est pourquoi je passe une partie importante du temps à travailler sur une chaine de traitement afin de nettoyer, analyser, normaliser et compiler ensemble ces deux cohortes pour obtenir une donnée prête à être utilisée dans le développement d’un modèle de machine learning.
Trouver un modèle d’IA performant
La contrainte réside dans le temps que nous avons à disposition et pas dans le matériel car le CLB a un serveur dédié aux tâches gourmandes en CPU/GPU. L’auto ML (automated machine learning) nous permet de tester automatiquement de nombreux modèles de machine learning pour trouver leurs paramètres idéaux associés. On obtient ainsi un modèle avec une performance de 87%. Cette information nous rassure sur l’existence d’une solution à notre problème de départ.
Confronter et valider du modèle
Afin de confirmer notre modèle, nous l’étudions à l’aide d’outils spécifiques permettant de comprendre et d’interpréter les prédictions. Nous pouvons ainsi tester la présence de biais et confrontons l’importance de certaines données à l’aide des connaissances métier du Dr Heudel.
Finalement, nos 5 semaines nous ont permis de :
- Mettre en évidence l’intérêt d’une telle approche ;
- Confirmer la faisabilité d’un projet de ce type et ainsi identifier plus globalement les enjeux du milieu médical par rapport à l’IA ;
- Réaliser un prototype de pipeline de Machine Learning et d’explicabilité.
Au-delà de cela, nous avons fait des recommandations sur les futures récoltes de données afin d'augmenter la fiabilité des résultats.
Si ce cas d’étude a été spécifique à l’immunothérapie, le processus qui démarre de l’exploration des données disponibles jusqu’au prototypage d’une solution d’IA est tout à fait applicable à d’autres problématiques comme la prédiction des réactions à un médicament ou l’anticipation d’effet secondaire, par exemple. To Be Continued.