Le nouvel AI robotique de Google réalise des pliages d’origami précis et manipule des sacs à fermeture éclair
2025-03-17 10:32
Favoris

Google DeepMind a dévoilé Gemini Robotics et Gemini Robotics-ER, basés sur le modèle Gemini 2.0, améliorant les capacités d'interaction des robots avec le monde physique. Gemini Robotics dispose d'une fonction vision-langage-action (VLA), qui traite les informations visuelles, comprend les instructions verbales et génère des mouvements, s'adaptant à diverses morphologies de robots telles que la plateforme à deux bras ALOHA 2 ou le robot humanoïde Apollo d'Apptronik. Gemini Robotics-ER se concentre sur le raisonnement incarné, améliorant la compréhension spatiale et s'intégrant aux systèmes de contrôle existants, renforçant ainsi l'adaptabilité des robots à leur environnement. Google souligne que Gemini Robotics marque une avancée en termes de généralisation, d'interactivité et de dextérité, avec des performances plus de deux fois supérieures à celles des autres modèles vision-langage-action, permettant aux robots d'exécuter de nouvelles tâches comme plier un renard en origami ou remplir un sac à fermeture éclair de collations.

Comparé au modèle RT-2 de 2023, Gemini Robotics surmonte les limites de réutilisation des actions, améliorant considérablement la dextérité et exécutant des tâches complexes que RT-2 ne pouvait pas gérer, telles que le pliage précis d'origami ou la manipulation de sacs à fermeture éclair, marquant un progrès dans la transition de la compréhension des instructions à l'exécution de mouvements fins. Google collabore avec Apptronik pour développer la prochaine génération de robots humanoïdes, et Gemini Robotics-ER a été mis à disposition de testeurs comme Boston Dynamics et Agility Robotics pour explorer des applications commerciales et industrielles. En matière de sécurité, Google adopte une approche hiérarchisée combinant l'évitement des collisions et la limitation de la force, et a publié le jeu de données ASIMOV pour évaluer la sécurité des mouvements robotiques, en respectant les lois de la robotique d'Asimov, afin de garantir des interactions sûres avec les robots pilotés par IA.

La capacité de généralisation de Gemini Robotics lui permet de s'adapter à des scénarios non entraînés, répondant aux défis de la robotique, avec des applications potentielles comme des assistants domestiques ou professionnels. Cependant, le modèle reste au stade de la recherche, et ses performances dans des environnements réels doivent encore être validées. Les avancées de Google entrent en concurrence avec des acteurs comme Figure AI et Tesla Optimus, mais l'industrie doit encore résoudre les problèmes d'autonomie et de sécurité pour promouvoir le développement de robots universels.

Ce texte est rédigé, traduit et republié à partir des informations de l'Internet mondial et de partenaires stratégiques, uniquement pour la communication entre lecteurs. En cas d'infraction au droit d'auteur ou d'autres problèmes, veuillez nous en informer à temps pour la modification ou la suppression. La reproduction de cet article est strictement interdite sans autorisation formelle. Mail : news@wedoany.com