fr.wedoany.com Rapport : Google a récemment dévoilé deux nouveaux modèles destinés aux développeurs : Gemini Omni Flash et Nano Banana 2 Lite. Le premier combine profondément le raisonnement multimodal avec la génération et l’édition de vidéos, tandis que le second se concentre sur la génération d’images à grande vitesse.
Le modèle Gemini Omni Flash a été présenté lors de la conférence Google I/O 2026. Sa capacité principale est d’intégrer le raisonnement multimodal de Gemini dans les processus de génération et d’édition vidéo. Ce modèle est désormais accessible via l’API Gemini et Google AI Studio. Ses quatre fonctionnalités clés incluent : l’édition vidéo conversationnelle, permettant aux utilisateurs d’affiner des vidéos en langage naturel ; la référence multimodale, combinant des entrées d’images, de texte et de vidéo pour maintenir la cohérence des scènes ; l’exploitation des connaissances de Gemini dans des domaines tels que l’histoire, la biologie et la logique narrative pour construire des vidéos ; et la synchronisation du texte avec les actions vidéo via des invites simples. En termes de prix, le coût de sortie vidéo d’Omni Flash est de 0,10 $ par seconde, soit le même que celui de Veo 3.1 Fast.
Google a également énuméré les limitations actuelles de ce modèle : il ne prend actuellement en charge que la génération de vidéos de 10 secondes, ne permet pas le téléchargement de références audio ni l’extension de scènes, l’API accepte des vidéos de référence d’une durée maximale de 3 secondes mais le modèle ne peut pas encore les traiter correctement, et la cohérence des personnages lors des changements de scène et des mouvements de caméra reste limitée.
L’autre modèle, Nano Banana 2 Lite, nommé gemini-3.1-flash-lite-image, est optimisé pour les scénarios sensibles à la latence. Son principal argument de vente est une latence de génération d’images d’environ 4 secondes, soit un cinquième de celle du Nano Banana 2 ; le coût de génération d’une image en résolution 1K est d’environ 0,034 $, soit la moitié de celui du Nano Banana 2 et un quart de celui du Nano Banana Pro. En matière de rendu de texte et de tests de référence, le Nano Banana 2 Lite se situe au même niveau que des modèles comme Grok, ce qui le rend adapté à la génération en masse de supports pour le commerce électronique et à l’itération de concepts publicitaires.

Google a présenté un workflow combinant les deux modèles : d’abord, utiliser Nano Banana 2 Lite pour générer rapidement des images, puis les images générées sont utilisées comme matériel de référence pour Gemini Omni Flash, qui les transforme en vidéos. À cette fin, Google a développé trois applications de démonstration : Anywhere, qui permet de fusionner des selfies ou des photos téléchargées avec des sites emblématiques pour créer de courts clips dynamiques ; Space Lift, qui, après avoir téléchargé une photo de pièce, génère différents plans de décoration et peut les transformer en vidéos de visite immersive ; et Omni Product Studio, qui génère des images contextualisées et de courtes vidéos publicitaires pour des produits de commerce électronique.

Lien de référence : https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-omni-flash-nano-banana-2-lite/









