Neovulga – Veille Vulgarisée – Reconstruction 3D haute précision
Neovulga – Veille Vulgarisée – Reconstruction 3D haute précision
A Neovision, nous menons une veille scientifique constante pour rester à l’état de l’art. Chaque mois, les dernières avancées sont présentées à l’ensemble de l’équipe, que ce soit de nouveaux jeux de données, un nouveau papier de recherche… Nous passons toutes les actualités – ou presque – au crible. Dans notre ambition visant à mettre l’IA à la portée de tous, nous vous proposons, chaque mois, l’analyse vulgarisée d’un sujet technique présenté par notre cellule R&D.
Ici, nous traiterons de l’article scientifique PIFuHD: Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human Digitization, par Shunsuke Saito, Tomas Simon, Jason Saragih, Hanbyul Joo.
Contexte
Une reconstruction 3D fidèle des formes humaines est une clé nécessaire au développement de diverses applications. Toutefois, il était jusqu’alors impossible de présenter une reconstruction de haute précision permettant de visualiser des détails tels que les doigts d’une main, les expressions faciales ou encore les plis des vêtements.
Ceci s’explique principalement par deux requis conflictuels. Des prédictions valides demandent d’avoir accès à un contexte assez large, tandis que des prédictions précises requièrent des images de haute résolution.
Pour cause de limitations de mémoire dans le matériel, on privilégiait alors des images de plus basse résolution fournissant un contexte suffisant mais avec un niveau de détail dégradé, donnant alors des reconstructions 3D moins précises.
Le framework PifuHD vient répondre à cette problématique, en fournissant un contexte fin tout en estimant de manière détaillée la forme humaine grâce à l’observation d’images à plus haute résolution.
L’avancée présentée
PifuHD permet donc une reconstruction 3D à partir d’une seule image 2D. Il ne nécessite pas de logiciel de capture puisque son apprentissage basé sur des photographies et des modèles 3D lui donne la capacité d’inférer à partir de cette seule image.
Le framework entraîne une fonction qui, pour chaque point de l’espace, va essayer de prédire et d’évaluer s’il fait partie de la forme finale, ici l’individu sur l’image. Le principal apport de PIFuHD est le fait de combiner deux réseaux de neurones complémentaires : tandis que l’un a une vision globale et peu précise de la forme de la personne, le second n’a qu’une information locale mais très détaillée.
Grâce aux apprentissages faits sur un grand volume de données, l’algorithme vient également reconstruire des choses invisibles sur l’image d’entrée, telles que le dos. Notons toutefois qu’il n’y a rien de magique, car il va prédire quelque chose de commun. Par exemple, si l’individu à un relief à l’arrière de son pull, le système qui aura fait une moyenne de ses apprentissages va générer un dos simple sans relief.
Sur la visualisation 3D, les nuances de couleurs permettent de bien distinguer les variations de profondeur et les détails.
Pourquoi c’est cool ?
L’édito de Valerian
« La reconstruction 3D à partir d’images est une tâche qui peut facilement nécessiter de grandes quantités de calculs et de mémoire si l’on cherche à traiter de manière fine tout l’espace 3D. Les auteurs de PIFuHD ont eu l’idée de découper cela en deux sous-tâches : la reconstruction globale et peu précise d’une part, la reconstruction locale de détails d’autre part. Une solution pragmatique à un problème complexe, et ça c’est intelligent ! »
PiFuHD est un framework qui témoigne d’une grande avancée dans le domaine de la reconstruction 3D de personnes. En comparaison avec sa version antérieure (PiFu), il est aujourd’hui capable de traiter des images de plus grandes résolutions (1024 x 1024 contre 512×512). Cela lui a permis de gagner en précision en obtenant une qualité de reconstruction 3D bien meilleure, et ceci, avec seulement une image 2D en entrée.
Cet algorithme saurait être apprécié dans le domaine de l’imagerie médicale ou bien pousser le réalisme plus loin pour tous les amateurs de jeux vidéo et de réalité virtuelle !
Pingback: Neovulga - Veille Vulgarisée - Représentation neuronale implicite et super résolution