Retour sur 2022 – L’Intelligence Artificielle vue par Neovision
Open Ai, Chat GPT, Dall E : ces noms sont sur toutes les lèvres.
Rétrospective 2022 – L’Intelligence artificielle sur le devant de la scène !
En 1950 Turing créait un test permettant de déterminer si une machine était intelligente. En 1956, le terme intelligence artificielle était formalisé pour la première fois. En 1997 Deep Blue, un ordinateur IBM battait pour la première fois Kasparov aux échecs. Autant de jalons qui ont marqué l’histoire de l’intelligence artificielle. Et si 2022 était la nouvelle balise de l’histoire de l’intelligence artificielle marquant un tournant majeur dans son histoire ? Car, jamais depuis sa création, l’intelligence artificielle n’a été autant intelligible par tous. Des évolutions qui vont modifier en profondeur notre façon de travailler, notre rapport à la société.
On vous propose de faire le point de l’intérieur sur les avancées de cette année qui ont marqué particulièrement nos équipes.
Open Ai, Chat GPT, Dall E : ces noms sont sur toutes les lèvres.
S’il est d’usage que nos équipes soient interpellées par des nouveautés IA très diverses, cette année fait pourtant office d’exception. Car, tous, nous ont cité à l’unisson “Chat GPT & Dall-E 2 ” et autres IA cousines, comme Galactica et Hey Git Hub d’une part ou Stable diffusion, Mid journey ou Infinite nature d’autre part. Toutes ont un point commun : elles sont basées directement ou indirectement sur du NLP (Natural Language Processing) dit traitement du langage naturel.
En quelques mots, le NLP, est une branche de l’Intelligence artificielle qui s’intéresse essentiellement à la compréhension, la manipulation et la génération de langage naturel par les machines. C’est une interface entre l’informatique et la linguistique. Cette discipline vise à développer et optimiser la capacité d’une machine à interagir naturellement et directement avec l’humain.
Si vous souhaitez creuser un peu plus la notion de NLP, on vous invite à écouter notre podcast dédié sur le sujet.
Focus sur Chat GPT, Galactica & Hey Github !
Comme indiqué précédemment, tous trois sont des modèles de traitement automatique du langage. Ils utilisent des réseaux de neurones pour comprendre et générer automatiquement du texte. Les applications de ces modèles incluent la génération de contenu, la rédaction automatique, la réponse à des questions, l’aide à la programmation. Si les modèles NLP existent depuis de nombreuses années déjà, ces nouveaux modèles révolutionnent les précédents usages car ils permettent une compréhension plus fine et une génération de langage beaucoup plus naturelle et très fluide.
Chat GPT, dont le nom ne vous est certainement pas inconnu, a enflammé la toile en décembre 2022, d’abord dans les sphères techniques, puis, plus récemment, auprès du grand public. Ce modèle, développé par OpenAi, a été entraîné sur une grande quantité de données textuelles, ce qui lui permet de générer du texte de manière fluide et naturel en se basant sur un contexte donné. Ce qui est particulièrement impressionnant dans sa manière de fonctionner, c’est son habileté à se saisir de domaines variés : d’assistant développeur capable de générer du code répondant à une problématique scientifique, à rédacteur en chef, capable de créer un planning éditorial et de rédiger seul des publications, ses applications sont tout simplement infinies. Ce sont ces habiletés qui ont marqué profondément nos équipes.
Nicolas, ingénieur R&D à Neovision est “ surpris par la qualité des réponses, d’autant plus sur le fait qu’il n’est pas restreint à un domaine”. Selon lui “ce n’est qu’un début, et nous n’avons pas encore pensé à l’ensemble des technologies qui découlent de ce prototype.“
Constat partagé par Guillaume, également Ingénieur R&D qui salue avec étonnement “ la capacité de ChatGPT à être convaincant dans ses réponses et la manière dont il arrive à simuler de manière crédible la manière de parler et de penser d’une personne.” Pour lui, “cette technologie a un grand potentiel pour améliorer l’expérience utilisateur dans de nombreux domaines, comme le service client ou l’assistance en ligne. “
Des évolutions que l’on peut déjà constater dans de nombreux domaines de la vie courante : évolution des métiers, réflexion autour des pratiques pédagogiques et la manière d’enseigner à l’ère de l’IA.
Avec ses résultats immédiats et presque magiques, ChatGpt soulève pour autant de nombreux questionnements, principalement éthiques quant à la véracité des réponses et informations qu’il propose. En effet, son entraînement, basé sur un modèle appelé “apprentissage par renforcement” est lacunaire : il génère ses réponses en fonction des données auxquelles il a accès lors de son entraînement. Or, ChatGPT n’a accès qu’aux données antérieures à 2021.
Qu’en-est il des droits d’auteurs, du plagiat ou autres questionnements éthiques ? Chat Gpt doit-il répondre à toutes les questions ? La liste des questions est longue, à la mesure de la révolution que représente ce modèle. Et les premières réponses n’ont pas tardé à émerger : Un système permettant de détecter des textes générés par ChatGPT pour limiter les plagiats est en cours de développement par OpenAi, qui projette d’ajouter un filigrane sur les textes générés. Un autre élément de réponse se trouve dans la sensibilisation et l’éducation aux usages et limites de ces modèles. Car, aussi innovants soient-ils, ces modèles ne se substituent pas à l’intelligence humaine. Il s’agira donc à l’avenir d’aiguiser son esprit critique pour les utiliser de manière adéquate tout en conservant son pouvoir décisionnel.
Galactica, le projet Meta prometteur rapidement mis au rebut
Galactica n’a pas connu l’essor de Chat GPT. Seulement 3 jours après sa mise en ligne, le modèle est désactivé par Meta. En cause ? La fragilité du modèle qui n’arrivait plus à distinguer le vrai du faux et sa tendance à reproduire les préjugés. Sur papier tout semblait pourtant idéal.
Galactica est un modèle qui a été conçu pour aider les scientifiques à rédiger leurs publications. Il a été formé à partir de plus de 48 millions d’articles scientifiques. Et la liste de ses fonctionnalités pouvait en faire rêver plus d’un : résumer des articles universitaires, résoudre des problèmes mathématiques, écrire des codes scientifiques ou même annoter des molécules … Le flop de ce modèle, propulsé par Meta n’enlève pourtant rien aux prouesses techniques dont il faisait preuve.
Et c’est ce qui a marqué Théo, Ingénieur qui est impressionné par les capacités du modèle “ Il y a énormément de petites astuces techniques sur la façon dont ils ont entraîné le modèle qui fait que celui-ci est capable d’énormément de choses, en particulier d’exécuter du code à l’inférence, ce qui est très puissant !”
Du texte à la parole, Hey GitHub!, votre nouvel assistant vocal
Hey GitHub! est un raccourci vocal pour ouvrir GitHub Copilot, un assistant de développement développé par GitHub. Il permet aux développeurs de poser des questions et d’obtenir des réponses rapides, de recevoir des suggestions de code, et d’accéder à des informations de référence sans utiliser leur clavier, uniquement par la parole.
Rosetta, ingénieure R&D a été interpellée par ce raccourci vocal, qui permet au développeur de ne pas sortir de son environnement de code et d’avoir une assistance en temps réel.
Art génératif : comment Dall E, Stable diffusion, Midjourney et Infinite nature révolutionnent l’art et la création.
Tous utilisent des techniques d’apprentissage automatique pour générer des images, textes ou des vidéos. Retour rapide sur chacune de ces technologies et en quoi elles ont marqué collectivement ou individuellement nos équipes.
Les générateurs d’images DALL-E 2 , Stable diffusion et MidJourney
DALL-E 2 est un modèle de génération d’images développé par OpenAI. Il a été formé sur une grande quantité de données d’images, et génère des images à partir de descriptions textuelles. Il est capable de créer des images qui n’existent pas dans les données d’entraînement, comme un « dragon volant avec des roues » ou « un chat avec des ailes ».
Comme beaucoup, nous nous sommes frotté au modèle en souhaitant mettre sur papier nos idées plus folles les unes que les autres. Et il faut bien le reconnaître, l’outil est bluffant et pousse la créativité à un très haut niveau !
Un enthousiasme partagé par Vincent, ingénieur conseil et affaires, qui est impressionné par les résultats : “C’est spectaculaire car cela combine la compréhension du texte et des images. 2022 est placée sous le signe de l’IA générative”
A l’image de Dall-E 2, Stable diffusion est un modèle de génération d’image. Le fonctionnement est similaire : l’utilisateur rentre un texte prompt (un court texte qui permet de diriger une intelligence artificielle pour qu’elle crée une image ou un texte). Les résultats entre les deux modèles diffèrent, et c’est ce qui est intéressant : en fonction de vos besoins, il peut être plus ou moins opportun d’utiliser un modèle spécifique.
Mid Journey, se distingue des deux modèles précédents du fait de son interface : le modèle est utilisable sur discord, un modèle de messagerie instantanée très populaire dans les communautés en ligne.
Nous avons fait le test pour comparaison, avec le prompt suivant : “Neovision, a start up in AI specialised in computer vision in 8k”. Ci-après, on vous laisse apprécier les résultats, qui sont totalement différents d’un modèle à l’autre !
Olli, ingénieur R&D est impressionné par le détail des images. “Cela va changer comment on peut faire de l’art ou des graphismes pour les sites web, les jeux, Donjons et Dragons…”
Pierre, ingénieur R&D salue la simplicité d’utilisation et la qualité des images générées par ce dernier.
Last but not least … Infinite Nature, un résultat bluffant !
Le dernier choix de notre sélection n’est autre qu’Infinite Nature, un modèle de génération de vidéo à partir d’une image (Perpetual view generator). Il est capable de générer des vidéos de paysages naturels réalistes, tels que des montagnes, forêts, récifs …à partir d’une seule image. Ces capacités impressionnantes résident dans le fait que ces images générées sous forme de vidéo n’existaient pas dans les données d’entraînement. On peut aisément imaginer l’ensemble des domaines d’applications possibles : photographie, architecture, environnement…
Arnaud, docteur en IA, a d’ailleurs décelé très tôt le potentiel de l’outil “L’outil génère à l’infini une vidéo en tenant compte des aspects 3D (relief, texture…). Le potentiel de ce type de modèle est énorme pour le jeu vidéo (génération procédurale de mondes ouverts quasi infinis et uniques), pour l’animation…”
Vous l’aurez compris, 2022 a été une année très prolifique en termes d’avancées technologiques. Même Lucas Nacsa, CEO de Neovision et spécialiste de son domaine est stupéfait par “la rapide progression des modèles génératifs” présentés précédemment. Et même si l’on se plaît à essayer toute sorte de loufoquerie avec ces modèles, il ne faut pas oublier qu’ils sont imparfaits, et qu’ils sont loin de nous remplacer au quotidien, comme en témoigne cet échange riche en information avec Chat GPT !