Neovulga – Veille Vulgarisée – StyleCLIP

Neovulga – Veille Vulgarisée – StyleCLIP

A Neovision, nous menons une veille scientifique constante pour rester à l’état de l’art. Chaque mois, les dernières avancées sont présentées à l’ensemble de l’équipe, que ce soit de nouveaux jeux de données, un nouveau papier de recherche… Nous passons toutes les actualités – ou presque – au crible. Dans notre ambition visant à mettre l’IA à la portée de tous, nous vous proposons, chaque mois, l’analyse vulgarisée d’un sujet technique présenté par notre cellule R&D.

Ici, nous traiterons de l’article scientifique StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery, par Or Patashnik, Zongze Wu, Eli Shechtman, Daniel Cohen-Or, Dani Lischinski.

Contexte

Depuis quelques années se développent les GANs, également appelés réseaux antagonistes génératifs. Ceux-ci permettent de générer des images ou d’autres données imitant celles utilisées lors de l’apprentissage. Pour y parvenir, un GAN est composé de deux entités : un générateur et un discriminateur. Si le générateur crée de nouvelles instances pour un objet donné, le discriminateur est lui chargé de déterminer l’authenticité de cet objet. Les deux sont ainsi confrontés l’un à l’autre pendant l’entraînement afin d’améliorer leurs performances respectives.

Parmi les applications des GANs, on peut citer le site thispersondoesnotexist, qui génère des visages de personnes qui n’ont jamais existé. Celui-ci fait d’ailleurs appel à StyleGAN, un super modèle génératif faisant partie de cette grande famille. Il a la particularité de générer des images de très bonne qualité, et très esthétiques. Si la génération de visages est son premier domaine d’application, ceux-ci se sont aujourd’hui élargis.

CLIP, de son côté, est un modèle multimodal permettant d’établir un lien entre texte et image. L’entraînement de ce modèle s’appuie sur plus de 400 millions de paires  d’image et texte collectées sur Internet.

En pratique, CLIP est composé d’un encodeur d’image et d’un encodeur de texte. Pendant l’apprentissage, chaque paire est encodée afin de pouvoir disposer de deux signatures : une pour le texte et l’autre pour l’image. À partir de là, les 2 encodeurs de CLIP vont être entraînés  à maximiser la corrélation entre les deux signatures. Une fois CLIP entraîné, l’encodeur d’image peut être utilisé sur une nouvelle image pour obtenir une signature qui pourra être comparée à des signatures obtenues par l’encodage d’un texte. Si la corrélation est forte, cela signifie que l’on est en présence d’une vraie paire. Par exemple, la signature d’une photo de chat sera plus proche de la signature du texte “une photo de chat” que de celle du texte “une photo de chien”.

En combinant CLIP et StyleGAN, il a été imaginé d’utiliser des données textuelles pour venir manipuler StyleGAN. Cette idée a donné naissance à StyleCLIP, qui permet donc de guider la génération d’image de StyleGAN au travers d’un court texte fourni par l’utilisateur.

L’avancée présentée

Concrètement, StyleGAN va générer une image qui est passée dans l’encodeur d’image de CLIP afin de lui donner une signature. De son côté, l’utilisateur saisit un texte qui passe par l’encodeur de texte de CLIP afin d’obtenir également sa signature. Les deux signatures sont alors comparées. Par la suite, l’image StyleGAN est optimisée afin que celles-ci soient les plus proches possibles.

Pour visualiser des résultats concrets, on vous propose de visionner la vidéo présentée ci-après :

Etienne Balit
Etienne Balit

L’édito d’Etienne

Si l’on devait définir les plus grandes avancées dans le domaine de la vision par ordinateur ces dernières années, les modèles CLIP et StyleGAN seraient tous les deux très bien placés : StyleGAN en proposant une façon de concevoir un modèle génératif capable de générer des images de très bonne qualité ; CLIP en montrant que l’on pouvait entraîner un modèle capable d’aligner images et des descriptions textuelles grâce à un très grand jeu de données extraites d’Internet.

Les travaux sur StyleCLIP sur la manipulation d’image à partir de directives textuelles présentés dans cet article nous permettent d’expliquer ces grandes avancées au travers d’une des nombreuses applications qui en découlent déjà, et qui continueront d’en découler dans les années à venir. Une chose est sûre, vous ne résisterez pas à la vue d’une photo où Obama a désormais une crête sur la tête. Ou à celle d’un chat tout mignon vous faisant de grands yeux doux !

Pourquoi c’est cool ?

Vous l’aurez compris, l’intérêt principal de StyleCLIP est de pouvoir éditer n’importe quelle image à partir d’un court texte.  Si le principal but est purement créatif, on pourrait venir lui trouver des applications dans le domaine de l’esthétique par exemple. Imaginons que vous souhaitiez tenter une nouvelle coupe de cheveux. Afin d’éviter le désastre capillaire, StyleCLIP pourrait  générer un exemple de la coupe.

Une deuxième application de StyleCLIP consisterait en l’augmentation des jeux de données. Si dans votre base de données tous les chiens ont la même couleur ou la même fourrure, StyleCLIP pourrait permettre de générer des variantes de ces caractéristiques afin d’améliorer in fine la généralisation d’un modèle vis-à-vis de la couleur des chiens.

L’article original, ci-dessous.

CONSULTER L'ARTICLE
Chloé Koch-Pageot
2 Comments

Post a Comment

Neovision © 2024