Neovulga – Veille Vulgarisée – Compréhension holistique de scènes 3D
Neovulga – Veille Vulgarisée – Compréhension holistique de scènes 3D
A Neovision, nous menons une veille scientifique constante pour rester à l’état de l’art. Chaque mois, les dernières avancées sont présentées à l’ensemble de l’équipe, que ce soit de nouveaux jeux de données, un nouveau papier de recherche… Nous passons toutes les actualités – ou presque – au crible. Dans notre ambition visant à mettre l’IA à la portée de tous, nous vous proposons, chaque mois, l’analyse vulgarisée d’un sujet technique présenté par notre cellule R&D.
Ici, nous traiterons de l’article scientifique Holistic 3D Scene Understanding from a Single Image with Implicit Representation, par Cheng Zhang, Zhaopeng Cui, Yinda Zhang, Bing Zeng, Marc Pollefeys, Shuaicheng Liu.
Contexte
La compréhension des scènes 3D en intérieur est une problématique complexe. En effet, les méthodes existantes ne permettent pas d’élaborer des estimations précises de la scène et des dispositions des différents objets. Cela notamment à cause de fortes occlusions entre ces derniers.
Ici, est donc proposée une méthode holistique venant combiner différents modules dans le but de faire de la reconstruction 3D précise de scènes d’intérieur à partir d’une seule image.
L’avancée présentée
Si les méthodes classiques nécessitent au moins 2 images pour estimer la profondeur et la disposition de la pièce, ici une seule image suffit pour générer une reconstruction 3D.
L’architecture de l’algorithme est composée de différents modules, chacun assigné à une tâche précise. L’un d’eux se charge d’estimer le plan de la pièce, c’est-à-dire la position des différents murs. Un autre vient placer des boîtes englobantes autour des objets. Enfin, le dernier fait une segmentation 3D des objets et de leurs formes. Il utilise pour cela des fonctions implicites.
Ces trois modules font une première estimation grossière des différents éléments ci-dessus. Ils créent des représentations latentes : ce ne sont pas des poses concrètes, mais elles ont une signification pour le réseau.
Par la suite, un réseau en graphes convolutionnel vient affiner les prédictions. Ce type de réseau a le vent en poupe. Il se base sur une représentation en graphes pour faire ses calculs.
Les graphes sont des représentations avec des nœuds connectés les uns aux autres par des liens. Ici, chaque objet est un nœud et des liens relient les différents objets. Cela permet par exemple de dire que la table se situe entre les canapés, ou que le cadre se situe au-dessus de l’un d’entre eux.
L’édito d’Arthur
« Classiquement, la reconstruction 3D implique d’utiliser plusieurs images ou des capteurs divers afin de pouvoir estimer la profondeur de ce qui est perçu. De la même manière par exemple que nous nous servons de la parallaxe de nos deux yeux pour percevoir cette information. Mais de plus en plus, des méthodes cherchent à entraîner des réseaux pour faire cette reconstruction à partir d’une seule image.
C’est le cas ici. Mais en plus de cela, cet article cherche à reconstruire l’ensemble des informations d’une scène en même temps : plan de la pièce, forme et orientation du mobilier et disposition. Cette méthode holistique, en combinant tous ces différents modules à l’état de l’art, permet d’obtenir d’excellentes performances. »
Pourquoi c’est cool ?
Ici, la méthode proposée ne fait appel à aucune technique nouvelle. Toutefois, la combinaison entre les différents modules est faite de façon assez intelligente et permet ainsi de venir dépasser l’état de l’art.
Le système en entrée ne nécessite qu’une seule image 2D, et se soustrait donc d’un système de capteurs ou de caméras. De plus, le fonctionnement holistique permet d’utiliser les différents modules de manière simultanée. On peut alors tout faire d’un coup : identifier la position des murs, positionner les objets selon les bonnes dimensions etc…
Petite particularité, le réseau se compose d’une fonction de coût sur les règles physiques. Cela signifie qu’il va être pénalisé pour toute action réalisée qui est physiquement impossible. Par exemple, choisir de superposer au même endroit la table et le canapé serait totalement illogique.
On peut trouver plusieurs applications de la reconstruction 3D de scènes. La plus évidente d’entre elles est la réalité augmentée. On peut tout à fait imaginer un décorateur d’intérieur composer des pièces avec différents aménagements de mobiliers grâce à l’analyse préalable complète de la pièce.
Pingback: Tendances IA - Retour sur CVPR 2021