Avec en ligne de mire SIA VISION 2018 (Salon International de l’Automobile), Lynred souhaitait démontrer que l’intégration de technologies infrarouges dans le véhicule autonome pouvait être pertinente. Pour cela, Lynred a ciblé un cas d’usage très concret : la détection des piétons. Une dimension qui pose question à l’heure de se projeter dans l’ère du véhicule autonome.
Neovision a construit une base de données inédites (d’images RGB infrarouges, et composites) puis a exploité ce jeu de données. Par la suite, Neovision a conçu et développé des algorithmes de Deep Learning capable de détecter les piétons, et ce quelle que soient les conditions de luminosité.
Suite aux travaux de Neovision, Lynred a pu présenter un papier de recherche appliquée industrielle lors du SIA Vision 2018. Ce papier met en avant l’intérêt d’avoir recours à l’infrarouge et d’appliquer des algorithmes de Deep Learning pour détecter les piétons. Lynred s’ouvre ainsi les portes du marché automobile.
Si le véhicule autonome embarque de nombreuses technologies de perception (capteurs optiques, radars, lidars, etc.), une problématique reste sans réponse. Que se passe-t-il lors la visibilité diminue grandement ? Les technologies citées précédemment se retrouvent inefficaces.
De ce constat est né une idée. Pourquoi ne pas intégrer de capteurs infrarouges ? Ces derniers sont en effet capables de faire ressortir les piétons grâce à leur empreinte thermique. Par ailleurs, et a contrario des caméras classiques, l’infrarouge reste insensible aux variations de luminosité.
Toutefois, l’infrarouge n’est pas une solution miracle. Lorsque les températures augmentent, il devient difficile de distinguer un humain se tenant devant une surface chaude. C’est pourquoi Neovision a décidé d’allier au capteur infrarouge un caméra RGB classique. Avec cette installation, les piétons peuvent être reconnus en toutes conditions lumineuses.
Le dispositif d’acquisition des données était donc bien défini. Ne restait plus qu’à procéder à l’acquisition. Pour cela, Neovision installa le dispositif sur un VTC qui roula dans les rues de Grenoble de jour comme de nuit. Les deux capteurs enregistraient simultanément des images visibles et infrarouges alignées. Finalement, Neovision disposait d’environ 6 heures de captures d’images parmi lesquelles 5508 images ont été sélectionnées et annotées à la main (une tâche aussi cruciale que fastidieuse). Cette annotation a été réalisée avec la plus grande minutie sur des images multispectrales, obtenues par la superposition des images visibles et infrarouges.
Les données étant structurées et correctement annotées, ne restait plus qu’à les exploiter. Pour cela, Neovision s’orienta vers les CNN (Convolutionnal Neural Network) et plus particulièrement l’architecture RetinaNet (faisant partie des SSD (Single Shot Detectors). Une solution retenue pour sa simplicité et ses résultats à l’état de l’art. Pour être encore plus précis, l’architecture sélectionnée est donc celle de RetinaNet basée sur ResNet-50 pré-entraîné sur le jeu de données COCO.
Cette architecture ne prenant en entrée que des images visibles, les images infrarouges ont été converties en images RVB (Rouge, Vert, Bleu) via la correspondance colorimétrique inferno colormap. Par la suite, Neovision a redimensionné ces mêmes images infrarouges pour les faire correspondre à la taille des images visibles. Par la suite, en fusionnant ces images, Neovision a obtenu des images multispectrales. Neovision avait donc 3 jeux de données sur lesquels entraîner les algorithmes de Deep Learning.
A la suite de l’entraînement, Neovision a procédé à une validation des résultats. Et comme nous pouvions nous y attendre, si le visible excelle en journée et l’infrarouge de nuit, la méthode multispectrale prend le meilleurs des deux technologies. Effectivement, les algorithmes ont obtenu les meilleurs résultats sur ces images. Et ces derniers améliorent ainsi la précision moyenne de 11%, de jour comme de nuit !
Malgré un jeu de données réduit, ces travaux mettent en lumière que l’ajout d’un capteur infrarouge à une caméra visible améliore nettement la détection de personnes. Une manière d’innover sans forcément ré-inventer l’eau chaude !
En 2021, après avoir développé un réseau capable d’optimiser la fusion entre 2 voies vidéo (une voie visible et une voie infrarouge thermique), Neovision a travaillé sur son embarquabilité afin de le faire fonctionner en temps réel sur une carte NVIDIA AGX.
L’architecture développée améliore considérablement les performances par rapport aux architectures de type « early fusion » ou « late fusion ». Cette architecture appelée Gated Multimodal Fusion Network, permet de gagner 4 à 9 points en conditions de nuit par rapport à des fusions classiques (et 18 points par rapport au visible seul), 8 points sur les piétons fortement occultés, et 12 points sur les cibles lointaines (piétons à plus de 50m). Voir publication SIA 2021 pour plus de détails.
Le démonstrateur comporte trois branches : une branche pour chaque modalité (infrarouge et visible), et une branche centrale pour la fusion multimodale. Il fallait pour la démonstration que les 3 branches tournent simultanément afin de pouvoir comparer les performances de chaque modalité, le tout sur une carte NVIDIA AGX. La carte devait embarquer en plus le traitement temps réel de correction des images IR de Lynred « ShutterLess ». Ce traitement permet d’éviter le shutter mécanique nécessaire pour corriger les caméras IR actuellement sur le marché.
COMPUTER VISION, DEEP LEARNING, R&D
« Un des problèmes majeurs pour les véhicules autonomes est la capacité à détecter les VRU (Vunerable Road Users = piétons, cycliste, trottinettes) et ce dans toutes les conditions de visibilité (y compris nuit, éblouissement phares voiture en face, entrées/sorties de tunnel, fumée, brouillard, etc…). Les systèmes actuels utilisent principalement des caméras visibles qui se trouvent en difficulté voire qui sont inopérantes dans ces situations. Les caméras infrarouge thermique permettent d’adresser ces situations difficiles avec grande efficacité. Reste le problème de la fusion des données : comment optimiser la fonction de détection des piétons en tirant le meilleur parti de chaque capteur (visible + infrarouge) ? Nous avons fait appel à Neovision, qui a su prendre en charge l’ensemble des phases du projet : état de l’art des modes de fusion possibles, prototypage des architectures les plus prometteuses, constitution d’une base de données conséquente (roulage avec enregistrement d’environ 1M d’images sur 2 caméras visibles et 2 caméras IR), entrainement, optimisation des performances, tests, et enfin intégration dans un démonstrateur live qui devait fonctionner en temps réel.
A la fin, c’est un réseau de neurones qui surclasse la performance des architectures classiques en améliorant les performances dans toutes les situations, une publication co-signée, et un démonstrateur temps réel qui fonctionne ! Traiter un problème aussi complexe comme celui-ci ne peut marcher que si les équipes sont compétentes et si elles coopèrent. C’est le dernier point que je souhaite souligner : c’est aussi grâce à la bonne coopération des équipes Neovision avec nos équipes que nous avons pu arriver à de tels résultats. »
Xavier Brenière, Application Labs Manager chez Lynred
3 janvier 2022
Computer Vision, Deep Learning, Environnement, R&D, Smart Cities