NeoActus – Quoi de neuf en IA ? – Juin – Juillet 2024
NeoActus – Quoi de neuf en IA ? – Juin – Juillet 2024
Chaque mois, nous vous proposons un article récapitulatif présentant différentes actualités liées à l’Intelligence Artificielle. S’ils n’ont pas vocation à viser l’exhaustivité, ils regroupent toutefois les actualités qui nous ont le plus marqué.
21/06 – V2A, la technologie de Google DeepMind qui génère l’audio à partir d’une vidéo 🎼
Lors de la conférence Google I/O 2024, DeepMind a présenté V2A, une technologie qui génère des bandes sonores synchronisées à partir de vidéos et d’invités textuels. Combiné avec des modèles de génération vidéo comme VEO, V2A permet de créer des sons, musiques et dialogues adaptés à chaque scène. Les utilisateurs peuvent contrôler précisément l’audio généré, facilitant l’expérimentation et la sélection des meilleures options. V2A utilise des annotations détaillées pour assurer une synchronisation audio-vidéo convaincante, malgré des défis comme la qualité de la vidéo d’entrée et la synchronisation des dialogues.
05/07 – GenAI : augmentation des usages et de la productivité en 2024 👀
Les études des cabinets Arctus et Boston Consulting Group révèlent que l’adoption de l’IA générative au travail a augmenté significativement, améliorant la productivité et la qualité du travail. 58% des utilisateurs économisent plusieurs heures par semaine. En France, 63% des salariés prévoient une utilisation régulière de l’IA générative d’ici deux ans. Les secteurs des services et les grandes entreprises sont les plus enclins à adopter ces technologies, tandis que les PME et le secteur public sont plus lents. Les initiatives de formation se multiplient, bien que des disparités subsistent entre dirigeants, managers et employés.
05/07 – Moshi : un nouvel assistant vocal en temps réel made in France, plus fluide que ChatGPT 🗣️
Le laboratoire français Kyutai, fondé par Xavier Niel et Rodolphe Saadé, a dévoilé son premier assistant vocal expérimental, Moshi. Présenté par Patrick Perez, Moshi se distingue par une fluidité conversationnelle surpassant ses concurrents américains, même via internet. Cependant, bien que développé en France, Moshi ne comprend pas le français et montre des comportements imprévisibles. Ce n’est qu’une démonstration technologique, marquant l’entrée prometteuse de la France dans le domaine de l’IA.
25/06 – Gmail, Messages, Drive, Sheet : Google intègre une fonction très attendue à ses services phares 🖋️
Google a intégré son IA Gemini à plusieurs de ses applications phares, notamment Gmail, Docs, Sheets, Slides et Drive, après son lancement en France le 5 juin. Cette intégration permet, par exemple, de résumer des discussions, rédiger des courriels, corriger des textes ou générer des formules. Actuellement, l’accès à ces fonctionnalités est réservé aux utilisateurs payants de Google Workspace et Google One AI Premium. Cependant, une plus grande accessibilité publique est envisagée pour l’avenir.
14/06 – Emploi : Lettre de motivation, CV… LinkedIn propose des outils d’IA pour postuler 📩
LinkedIn a annoncé l’intégration de nouveaux outils d’intelligence artificielle pour aider les chercheurs d’emploi. Ces outils permettent de rédiger des lettres de motivation et d’analyser les CV pour les rendre plus efficaces. L’IA facilite également la découverte d’offres d’emploi adaptées aux candidats. LinkedIn, appartenant à Microsoft, bénéficie de sa relation avec OpenAI pour adapter des technologies performantes existantes, optimisant ainsi le processus de candidature pour ses utilisateurs.
25/06 – Un robot pour assister les personnes qui souffrent de troubles de l’attention 🤓
Des chercheurs de l’université Monash à Melbourne ont développé un robot nommé Stu pour assister les personnes atteintes de trouble déficit de l’attention avec ou sans hyperactivité (TDAH). Commandé par la voix, Stu aide en décomposant les tâches, en gérant le planning, en planifiant des interactions sociales, et en servant de « body double » pour offrir un soutien moral. Conçu pour être plus efficace que les applications existantes, Stu est en phase de test avec une forte demande. Selon les chercheurs, 90% des utilisateurs trouvent les robots bénéfiques pour gérer leur TDAH.
19/07 – GPT-4o mini : un LLM multimodal petit mais costaud 💪
OpenAI a lancé GPT-4o mini, une version plus économique mais performante de son modèle multimodal GPT-4o. Disponible gratuitement dans ChatGPT, GPT-4o mini surpasse les modèles concurrents Gemini Flash de Google et Claude Haiku d’Anthropic en termes de rapport performance/coût. Il obtient de meilleurs scores sur des benchmarks académiques, notamment MMLU et MGSM, et excelle dans le raisonnement multimodal et les performances de code. GPT-4o mini est désormais accessible aux utilisateurs de ChatGPT en version free, plus et team, et sera disponible pour les utilisateurs entreprise la semaine prochaine.
28/06 – Avec Gemma 2, Google fait de l’ombre à Llama 3 ↗️
Google a lancé Gemma 2, un modèle de langage qui se décline en deux versions, 9 milliards et 27 milliards de paramètres. Ces versions visent à rivaliser avec Llama 3 de Meta, en offrant des performances remarquables en raisonnement logique et en résolution de problèmes mathématiques. La version 27B, bien que légèrement inférieure à Llama 3 70B sur certains benchmarks, est conçue pour fonctionner sur un seul GPU, ce qui réduit les coûts de déploiement. La version 9B surpasse le modèle Llama 3 8B dans sa catégorie. Google prévoit également un modèle compact de 2,6 milliards de paramètres pour combiner accessibilité et performance, disponible prochainement.