IA Générative, Chat GPT, Computer Vision : ces tendances qui font vibrer le net.

Rétrospective 2023 – L’Intelligence artificielle sur le devant de la scène !

Le début d’année est une période phare pour la prise de résolutions, faire le bilan et se projeter vers l’avenir.

L’année 2023 a été une période marquante pour l’intelligence artificielle, telle que perçue par les collaborateurs de Neovision. Examinons les moments phares qui ont façonné cette année et l’avenir de l’IA.

Pour anticiper les futures évolutions de l’IA en 2024, il faut déjà savoir ce qui a bougé et évolué en 2023. En ce sens, Neovision vous propose de faire le point sur l’année écoulée et les actualités, tendances et évolutions qui ont marqué son équipe.

Vous l’aurez compris, nous donnons aujourd’hui la parole à nos collègues. De la R&D à la production en passant par le commerce, nous croisons les regards pour vous offrir la photographie la plus représentative et inclusive possible. Nous aborderons les sujets allant des améliorations des modèles de vision, language et IA générative, jusqu’aux prises de consciences éthiques, sécuritaires et énergétiques.

Témoignages des collaborateurs

Les évolutions de l’intelligence artificielle

Évolution des modèles GPT et des concurrents

Mistral Mixtral, représentant la concurrence française à GPT/OpenAI et proposant un LLM plus efficace que GPT-4.
Louis, docteur en IA, met en lumière les aspects de souveraineté et d’innovation en IA, tout en soulignant la diversification des sources de modèles linguistiques ainsi que l’aspect open source de Mistral AI, soulignant l’importance de la transparence et de la puissance des modèles.

Le monde de l’IA est secoué par l’annonce de Gemini, une IA multimodale. Cette révélation, bien que perçue comme une déclaration marketing puissante, soulève des interrogations quant à la réalité des performances dans des scénarios d’utilisation réels. Lucas, CEO, souligne qu’une partie de cette annonce pourrait être sujette à la sur-promesse. Cependant, il souligne l’importance cruciale de surveiller de près les performances réelles dans des cas d’utilisation concrets. Cette annonce préfigure clairement la direction que prendront les assistants virtuels, offrant un aperçu fascinant du futur de cette technologie en constante évolution.

Optimisation des modèles LLM et des techniques associées

Des méthodes efficaces de fine-tuning, comme LoRA et QLoRA, facilitent la personnalisation des modèles de langage. Louis trouve que c’est un avantage majeur, permettant une adaptation plus aisée des modèles aux besoins spécifiques.

Utilisation de techniques de quantization et de compression de poids pour réduire la consommation mémoire des modèles LLM. Ces méthodes permettent une utilisation plus efficiente des LLM sur des appareils avec des ressources limitées, soulignant la faisabilité de l’IA sur des dispositifs personnels.

Les techniques avancées telles que flash attention, spéculative decoding, KV caching optimisent le temps d’inférence des modèles LLM et transformers. Ces optimisations contribuent à des modèles plus rapides et efficients, améliorant significativement les performances en temps réel.

LLaVA, Kosmos-2, Ferret, sont des modèles LLM multimodaux permettant de traiter des requêtes textuelles complexes sur le contenu d’une image. L’intégration croissante de modèles multimodaux dans les agents IA conversationnels souligne leur utilité croissante pour interpréter les images et vidéos.

Les avancées en computer vision

Florence-2, basé sur des prompts unifiés, excelle dans une variété de tâches de vision, offrant une approche novatrice et positionné comme un concurrent fort, ouvrant la voie à une vision plus avancée et polyvalente dans le domaine de l’IA.

GPinecone, Chroma, Milvus, Weaviate, et Llama Index, ces bases de données vectorielles simplifient le stockage, permettant aux modèles d’apprentissage automatique de mémoriser des entrées antérieures. Ces frameworks offrent des solutions de recherche et d’économie de manière rapide, Miguel, Lead Tech IA, souligne leur importance dans le contexte de modèles massifs.

La combinaison de la recherche et de la génération dans Retrieval Augmented Generation (RAG) étend les capacités des LLMs. RAG émerge comme l’architecture à suivre, offrant une personnalisation accrue des LLMs pour répondre à des besoins spécifiques.

Les nouvelles architectures YOLO, Yolo-Nas, Yolo V8, PP-YOLOe, DAMO Yolo, redéfinissent la détection d’objets, améliorant la précision et les performances pour une application en temps réel. YOLO est salué comme une solution stable et évolutive, particulièrement pour la détection en temps réel.

L’IA Générative

L’accessibilité croissante de ChatGPT à tous les secteurs de la société, marquant une acceptation généralisée de cette technologie.
Témoignage de Tamara, docteure en IA : « Un outil tellement prometteur qui est enfin accepté et connu de tous. Cette démocratisation soulève cependant des inquiétudes quant aux dérives et aux détournements d’usage, comme le partage de témoignages de psychologues et de leurs patients discutant avec leur « ami » imaginaire. »

La deep fake d’une fausse influenceuse espagnole générée par IA, générant des revenus importants. Manon, assistante marketing, nous témoigne : “Ce phénomène soulève des questions sur l’éthique et l’impact potentiel sur l’industrie de l’influence, tout en mettant en évidence les implications financières des deep fakes.”

An A.I.-Generated Picture, une œuvre d’art générée par l’IA remporte un prix artistique face à de nombreux artistes, soulevant des questions sur la reconnaissance et le droit d’auteur. L’aspect juridique du droit d’auteur pour les œuvres générées par l’IA devient une préoccupation majeure dans le domaine artistique.

MuseNet (OpenAI) ou MusicGen (Meta), c’est la création par l’IA d’un duo musical virtuel entre Drake et The Weeknd, suscitant des débats dans l’industrie musicale. La question des droits d’auteur devient centrale, tout en illustrant le potentiel de l’IA à influencer la création artistique et les goûts musicaux.

HeyGen générant des vidéos et des discours multilingues avec la même voix et accent.
Cette technologie est capable de générer des contenus vidéo et des discours traduits dans différentes langues tout en maintenant la même voix et l’accent d’origine.
Considéré comme une avancée impressionnante par les équipes de Neovision, HeyGen ouvre la voie à une communication multilingue plus naturelle et accessible.

L’évolution du modèle Midjourney vers sa version V6, marquée par des performances bluffantes dans la génération d’images.
Amaury, développeur IA, se pose des questions quant au droit d’auteur et de normalisation du concept de « beauté » émergent, soulignant l’importance croissante de ces modèles dans divers domaines.

Les réflexions et prises de conscience

Réflexion éthique et régulation de l’IA

Une prise de conscience grandissante sur l’utilisation de l’IA dans la vie quotidienne et en entreprise, mettant l’accent sur les aspects éthiques. Le besoin de réflexion préalable sur l’éthique de la technologie est salué, soulignant l’importance d’un dialogue continu sur ces questions selon notre développeur back-end, Alexandre.

Une régulation européenne, l’EU AI Act, vise à garantir la confiance dans les outils et l’écosystème de l’IA. Celle-ci est perçue comme une opportunité supplémentaire pour les acteurs européens, renforçant la souveraineté des données et introduisant des mesures de protection éthique et énergétique d’après Gaël, partenaire & business développeur.

Sobriété énergétique et méthodes d’optimisation

La quantization réduit la précision sans perte notable de qualité, favorisant la sobriété énergétique dans les usages serveurs et locaux. Considérée comme une avancée nécessaire, elle remet en question la course incessante aux paramètres, soulignant les implications énergétiques de l’IA.

L’intelligence de la Gen AI dépend principalement de l’expertise en Prompt Engineering, guidant la recherche et la fédération de l’IA, une compétence essentielle pour les développeurs, qui souligne le besoin croissant de maîtriser l’art de requêter les modèles de langage.

Les SLM (Sparse Language Models) sont plus accessibles et faciles à déployer sur des appareils mobiles ou des appareils à faibles ressources. Une avancée prometteuse, en particulier pour la sobriété énergétique et la portabilité, et selon Gaël, cela rend les modèles plus largement utilisables.

Optimisation Révolutionnaire de la Fonction de Tri grâce à AlphaDev, Lucas partage la nouvelle passionnante de l’exploit réalisé par AlphaDev, qui a réussi à surpasser un record algorithmique vieux de 50 ans dans le domaine du tri d’éléments. Cette percée démontre le pouvoir de l’IA à propulser la recherche fondamentale sur des sujets considérés comme statiques depuis des décennies. En triant les éléments d’une liste jusqu’à 70% plus rapidement, cette avancée promet des gains significatifs en termes de réduction de la consommation d’énergie et d’amélioration de la rapidité des applications. Concrètement, elle ouvre la voie à des progrès notables dans d’autres domaines fondamentaux, suscitant des attentes prometteuses pour l’avenir de l’IA.

Sécurité des systèmes d’IA

Les problématiques de backdoor et model poisoning mettent en évidence les enjeux de sécurité dans l’utilisation inconsidérée de plateformes d’IA, soulignant la nécessité de traiter ces questions de sécurité, particulièrement cruciales pour la Gen AI.

Mistral AI, avec des performances perçues dans le top 10, devient une référence malgré une communication discrète. L’attente est grande pour tester la plateforme, suscitant l’enthousiasme malgré la communication limitée de l’entreprise.

En conclusion, 2023 a été une année dynamique pour l’intelligence artificielle, marquée par des avancées technologiques majeures et des questionnements éthiques essentiels. Avec les témoignages des collaborateurs de Neovision, qui nous ont éclairés sur des aspects variés, de l’évolution des modèles à la démocratisation de ChatGPT, en passant par les enjeux énergétiques et de régulation. Les perspectives prometteuses de l’IA, illustrées par des réalisations artistiques générées par des algorithmes et des percées révolutionnaires, laissent entrevoir un avenir passionnant et complexe pour cette technologie en constante évolution.

Retour sur 2023 – L’Intelligence Artificielle vue par Neovision