Neovulga – Veille Vulgarisée – Objectron Dataset
Neovulga – Veille Vulgarisée – Objectron Dataset
A Neovision, nous menons une veille scientifique constante pour rester à l’état de l’art. Chaque mois, les dernières avancées sont présentées à l’ensemble de l’équipe, que ce soit de nouveaux jeux de données, un nouveau papier de recherche… Nous passons toutes les actualités – ou presque – au crible. Dans notre ambition visant à mettre l’IA à la portée de tous, nous vous proposons, chaque mois, l’analyse vulgarisée d’un sujet technique présenté par notre cellule R&D.
Ici, nous traiterons de la base de donnée Objectron créée par Google, qui offre de nombreuses perspectives dans l’estimation de pose 3D.
Contexte
Objectron Dataset est une base de données de vidéos et d’images du quotidien pour appréhender le sujet d’estimation de pose 3D créée par Google. Cette base de données fut exploitée en interne dans un premier temps pour réaliser des tests.
Pour faire ses tests, Google utilisa MediaPipe, leur plateforme open-source sur laquelle il est possible de customiser des algorithmes de machine learning. Suite à cela, le géant du web développa MediaPipe Objectron, un ensemble de modèles de détection d’objets 3D et de suivi en temps réel pour mobile.
Cette brique technologique fut testée sur quatre catégories de la base de données : “shoes”, “chairs”, “cups” et “cameras”. Pour chaque objet, un cadre de délimitation 3D s’affiche.
L’avancée présentée
Comme nous le savons, la communauté scientifique a pu progresser dans les différents domaines de recherche comme la vision par ordinateur grâce à l’accessibilité des données et des modèles sur Internet. En 2009, on se souvient de l’engouement des scientifiques lorsque Imagenet, une base de données de 14 millions d’images labellisées, fut rendue publique. Cette base de données a ouvert le champ des possibles sur des problématiques de reconnaissance, de traitement ou de compréhension des images 2D.
Et si aujourd’hui nous étions capables de monter en compétences sur de la 3D grâce au même processus de partage d’informations ?
En effet, depuis le mois de novembre 2020, Google a donné accès à Objectron Dataset. Le jeu de données est à présent stocké sur Google Cloud. Au total, Objectron Dataset est composé de 15 000 vidéos et de 4 millions d’images. Ces données sont réparties en 9 catégories recensant divers objets du quotidien (“bikes”, “books”, « cameras », “cereal boxes”, “chairs”, “cups”, “laptops” et “shoes”) annotées manuellement.
Mais cela ne s’arrête pas là, car vous avez également accès à toutes les métadonnées des vidéos et des images. De ce fait, vous avez accès à des informations comme : la pose de caméra, les nuages de points, la caractérisation des surfaces planes ou encore le cadre de délimitation 3D (position, orientation et dimensions de l’objet) pour chaque clip.
Et pour ceux qui ne savent pas par où commencer mais qui ont de l’expertise dans l’estimation de pose 3D, il est également possible de manipuler le pipeline de Google sur MediaPipe !
L’édito d’Etienne
« La perception de l’aspect tridimensionnel de l’environnement est important dans de nombreux domaines d’application de la vision par ordinateur, la réalité augmentée notamment. Le jeu de données Objectron a retenu mon attention car il offre de nouvelles perspectives en la matière, en permettant d’apprendre à prédire la position, l’orientation ainsi que la taille d’objets très variés. De plus, la taille du jeu de données combiné à la diversité des objets représentés permet d’envisager la généralisation à de nouveaux types d’objets à partir d’une faible quantité de données, ce qui pourrait avoir un impact majeur sur les projets de nos clients. »
Pourquoi c’est cool ?
Comme mentionné plus haut, l’estimation de pose 3D est une tâche complexe en raison de la compréhension de notre monde physique faite 3D et du manque de données en provenance du monde réel représentant ce dernier. Objectron Dataset offre donc une véritable progression en la matière en partageant des données composées d’objets du quotidien divers et variés.
Les données vidéos mises à disposition étant centrées sur l’objet, elles permettent de capturer une grande partie de la structure 3D de l’objet. De plus, elles se présentent sous forme de flux vidéo ou photos, très utilisés pour de nombreuses tâches en vision par ordinateur.
Objectron devrait ainsi venir favoriser de nouvelles recherches et applications, et ce afin d’accroître notamment la précision des prévisions d’estimation de pose 3D.