Neovulga – Veille Vulgarisée – Algorithmes évolutionnistes pour la génération de molécules
Neovulga – Veille Vulgarisée – Algorithmes évolutionnistes pour la génération de molécules
A Neovision, nous menons une veille scientifique constante pour rester à l’état de l’art. Chaque mois, les dernières avancées sont présentées à l’ensemble de l’équipe, que ce soit de nouveaux jeux de données, un nouveau papier de recherche… Nous passons toutes les actualités – ou presque – au crible. Dans notre ambition visant à mettre l’IA à la portée de tous, nous vous proposons, chaque mois, l’analyse vulgarisée d’un sujet technique présenté par notre cellule R&D.
Ici, nous traiterons de l’article scientifique EvoMol : a flexible and interpretable evolutionary algorithm for unbiased de novo molecular generation, par Julies Leguy, Thomas Cuachy, Marta Glavatskikh, Béatrice Duval, et Benoit Da Mota.
Contexte
La génération moléculaire est un défi pour les scientifiques. D’un domaine à l’autre, tel que la pharmaceutique ou les matières organiques, il est difficile de retrouver le même espace chimique (c’est-à-dire l’ensemble des molécules possibles). Ainsi, suivant la discipline, les problématiques, les contraintes et les intérêts ne seront pas définis similairement.
Par exemple, pour les matières organiques il n’y a pas de jeu de données d’apprentissage fiable et représentatif. L’enjeu consiste donc à trouver un algorithme indépendant des données, avec des espaces de recherche explicites, capable de répondre malgré ce manque à cette problématique.
Les auteurs ont donc cherché une solution flexible pour la génération de molécules génériques. Dans cette optique, ils ont conçu EvoMol, un générateur moléculaire utilisant un algorithme évolutionniste permettant d’explorer des zones connues et inconnues d’un espace chimique donné, et cela grâce à des graphiques moléculaires.
Toutefois, établir un diagnostic basé sur une reconnaissance automatisée suppose de prendre en compte plusieurs modalités, telles que les expressions faciales, les gestes, les caractéristiques acoustiques ou encore le contenu verbal. En effet, une modalité isolée fournit rarement une information complète, chacune possédant sa valeur ajoutée.
L’avancée présentée
Pour comprendre comment EvoMol fonctionne, il faut connaître la logique qu’il y a derrière les algorithmes évolutionnistes.
Ce sont des algorithmes dont les méthodes de calcul sont bio-inspirées, c’est-à-dire qui se basent sur l’observation de la nature, et dans leur cas de la théorie de l’évolution. L’objectif sera, pour un problème donné, de faire “évoluer” des solutions pour arriver à trouver les meilleures en se basant sur des mécanismes de mutation et de sélection. De ce fait, EvoMol ne générera que des graphiques moléculaires valides et des solutions uniques dont les scores sont élevés.
Dans ce papier, les auteurs expliquent qu’ils ont défini un ensemble de sept mutations locales et chimiques, leur permettant d’avoir un grand nombre de possibilités grâce à un périmètre étendu de l’espace chimique. Cela leur a permis de tester plusieurs objectifs différents. Afin de suivre le processus d’exploration, les auteurs ont créé un arbre de visualisation qui leur a permis d’observer facilement les résultats.
Ainsi, ils ont réussi à générer des ensembles de molécules optimisés en fonction d’un objectif défini. EvoMol obtient d’excellentes performances, notamment pour la conception de médicaments classiques et pour les problèmes de matériaux moléculaires. En travaillant de façon contrôlée, en analysant mutation par mutation, la méthode a véritablement du sens d’un point de vue chimique et métier.
L’édito d’Arthur
« Les algorithmes évolutionnistes sont une méthode d’IA inspirée de l’évolution naturelle. Celle-ci permet de résoudre des problèmes de recherche complexes à la combinatoire trop importante. Dans cet article, les auteurs utilisent des algorithmes évolutionnistes pour concevoir des composés chimiques. »
Pourquoi c’est cool ?
Un algorithme évolutionniste comme EvolMol, est intéressant dans sa capacité à fonctionner sans besoin de données spécifiques. Cette méthode peu connue du grand public est flexible, permettant ainsi de s’adapter facilement à différents types de problèmes. Contrairement à d’autres techniques d’IA, ici la visualisation et l’interprétation des résultats se font en toute simplicité grâce à un arbre de visualisation.
À terme, et outre les avantages présentés précédemment, il sera surtout possible d’accélérer et de faciliter la recherche de molécules, par exemple pour la création de nouveaux médicaments. De plus, les propositions portent sur des résultats uniques et valides, il est donc plus simple de sélectionner une molécule candidate.