Les Transformers qu’est-ce que c’est Decepticons ou petits filous de l’IA Gen ?
Les Transformers, qu’est-ce que c’est : Decepticons ou petits filous de l’IA Gen ?
Il était une fois, des IA et des mots.
Nous naviguons ici dans les eaux profondes du Traitement du Langage Naturel (NLP), ce courant de l’Intelligence Artificielle qui enseigne aux machines à parler notre langue. Aujourd’hui, les projecteurs sont braqués sur l’IA Générative et les (LLM) (Large Language Models), des modèles qui font partie de la famille des Transformers. Mais pour comprendre leur règne, il faut contempler ce qu’ils ont détrôné.
Les prédécesseurs des Transformers, les Réseaux de Neurones Récurrents (RNN), sont des lecteurs myopes et lents. Ils déchiffraient une phrase mot après mot, pas après pas. Le premier mot influençant le second, qui influençait le troisième. Arrivé à la fin d’un long paragraphe, le modèle souffrait d’une amnésie contextuelle ; il avait oublié le début. L’information s’évaporait dans la distance, rendant la génération de textes longs incohérente, brumeuse, voire impossible.
2017 : Le papier qui a tout fait déraper
Puis vint l’année 2017 (symbolique année de Transformers 5 : The Last Knight). Une équipe de chercheurs de Google publie un papier au titre digne d’une punchline d’émission TV : « Attention Is All You Need ». https://arxiv.org/pdf/1706.03762
Ils ont introduit le mécanisme d’Attention, brisant les chaînes de la lecture séquentielle. Fini le déchiffrage mot à mot. Désormais, le modèle embrasse toute la phrase d’un seul regard, instantanément. Il pèse l’importance de chaque mot par rapport à tous les autres, quelle que soit leur distance. Il tisse des liens invisibles, des ponts sémantiques entre le sujet et le verbe éloignés par trois lignes.
Petit exemple pour comprendre comment ça se passe avec les mots
Prenez le mot « pêche ». S’il côtoie « poisson », sa signature mathématique se transforme. Peut-être que cette signature mathématique se rapprochera de quelque chose comme un sport pratiqué aux abords d’une étendue d’eau 🪝? S’il côtoie « abricot », elle change radicalement et deviendra plutôt fruiiiiiiiiit (🍓🤦).
Le Transformer change la nature de l’information : de mots isolés, il fait naître un sens nuancé.
Pourquoi ce nom, « Transformers » ?
Parce qu’ils… … …transforment… une séquence d’entrée (par exemple ce que vous écrivez dans l’interface de votre LLM préféré) en une représentation mathématique, les fameux TOKENS ! Et ils RE-transforment ces tokens en une séquence de sortie pour vous afficher la réponse ou le rendu, ce qu’ils ont “généré”. Un véritable chaos d’information pour le commun des mortels, mais efficacité redoutable.
Les mastodontes de la transformation
Cette architecture a engendré des géants, chacun exploitant la puissance du Transformer pour une tâche noble :
BERT (L’Érudit)
Il utilise l’architecture pour comprendre. En lisant le texte dans les deux sens (bidirectionnel), il saisit les nuances les plus subtiles. C’est le champion de la classification et de la recherche d’information. Sa valeur ? Il comprend le contexte caché derrière les mots.

GPT (Le Poète)
Il est maître dans l’art de générer. C’est un Transformer qui prédit inlassablement le mot suivant, construisant des mondes phrase après phrase. Sa force réside dans sa capacité à maintenir une cohérence sur des kilomètres de texte, là où ses ancêtres s’essoufflaient après quelques mètres.

ViT (Vision Transformer – L’Œil)
Il prouve que l’architecture dépasse le langage. Il découpe une image en « mots » visuels (patchs) et les analyse avec la même attention, surpassant parfois les réseaux convolutifs classiques.

Leur valeur ajoutée est universelle : la parallélisation. Ils traitent des montagnes de données simultanément, permettant un apprentissage à une échelle titanesque.
Ce que le Transformer n’est pas
Pourtant, le marteau d’or ne doit pas voir des clous partout. Le Transformer est un génie, notamment littéraire, mais pas un mathématicien infaillible, ni un comptable rigoureux.
- L’Inutilité Tabulaire : Pour des données structurées, froides, comme des tableaux Excel de comptabilité, des modèles plus simples (comme les arbres de décision) restent rois. Utiliser un Transformer ici serait comme utiliser une fusée pour traverser la rue : coûteux, énergivore et inefficace.
- La Logique Pure : Le Transformer ne « raisonne » pas comme un algorithme logique ; il imite le raisonnement par probabilité. Il peut écrire une démonstration mathématique convaincante mais fausse. Il est un artiste du vraisemblable, pas le gardien de la vérité absolue.
- La Frugalité : Ce sont des monstres d’énergie. Pour des applications embarquées, sur de petits objets connectés nécessitant une réponse en microsecondes avec peu de batterie, le Transformer est souvent un géant trop lourd à porter.
Le Transformer a redessiné l’horizon de l’IA, mais il reste un outil : sublime pour le langage et le complexe, superflu pour le simple et le structuré. Et surtout, même s’il nous permet de “parler” de manière naturelle aux machines, il doit tout transformer dans sa propre langue pour y arriver.
On espère que vous comprendrez mieux comment vous utilisez vos tokens à l’avenir !