Google dévoile trois modèles d’IA d’image Nano Banana

2026-06-11 14:10

Favoris

fr.wedoany.com Rapport : Google a lancé une série de modèles d’IA de génération et d’édition d’images appelée Nano Banana, basée sur l’architecture Gemini 3. Nano Banana n’est pas un outil de text-to-image autonome, mais un système d’exécution visuelle qui travaille en synergie avec le cerveau cognitif sous-jacent de Gemini, capable de transformer des ensembles de données denses, des kits de marque et des mises en page complexes en sorties au niveau du pixel.

La gamme actuelle comprend trois modèles :

Modèle	Nom officiel	Vitesse	Meilleure utilisation
Nano Banana	Gemini 2.5 Flash Image	Rapide	Édition quotidienne, génération de base
Nano Banana Pro	Gemini 3 Pro Image	Plus lent	Travail de marque, impression, sortie précise
Nano Banana 2	Gemini 3.1 Flash Image	Le plus rapide (3× Pro)	Itération rapide, contenu social, modèles

Nano Banana 2 n’est pas une version dégradée de Pro, mais un outil différent conçu pour des tâches différentes : vitesse et quantité vs. raffinement et précision.

Les utilisateurs peuvent accéder à ces modèles via les plateformes suivantes :

Plateforme	Contenu disponible
Application Gemini (iOS/Android/Web)	Accès complet, y compris un niveau gratuit – le point de départ le plus simple
Google Search (Mode IA)	Génération rapide dans les résultats de recherche
Google Lens	Création d’images via la fonction Lens Create
Google AI Studio	Tests pour développeurs et expérimentation de prompts
API Gemini / Vertex AI	Déploiement en production, workflows par lots, contrôles de gouvernance
Google Slides (« Aidez-moi à visualiser »)	Génération visuelle intégrée dans les diapositives

Nano Banana 2 et Nano Banana Pro sont tous deux disponibles gratuitement via l’application Gemini, mais Pro a une limite de génération ; une fois atteinte, l’application revient automatiquement au modèle de base.

En termes de spécifications principales : Nano Banana 2 (Gemini 3.1 Flash Image) génère chaque image en 2 à 5 secondes, avec une résolution maximale de 4K (4096×4096), des options natives de 512 px, 1K et 2K, prend en charge 15 rapports d’aspect (y compris les formats extrêmes 8:1 et 1:8), jusqu’à 4 personnages dans une série, jusqu’à 14 références d’objets dans un seul prompt, une limite de jetons d’entrée de 131 072, une limite de jetons de sortie de 32 768, une précision de rendu de texte d’environ 87 %, une fonction de recherche en temps réel, et un coût par image environ 75 % inférieur à celui de Pro. Nano Banana Pro (Gemini 3 Pro Image) génère chaque image en environ 10 à 15 secondes, avec une résolution native 4K, des rapports d’aspect standard (1:1, 16:9, 9:16, 4:3, 3:4, 21:9, etc.), jusqu’à 5 personnages, jusqu’à 14 références d’objets, une limite de jetons d’entrée de 65 536, une limite de jetons de sortie de 32 768, une précision de rendu de texte d’environ 64 %, et prend également en charge la recherche en temps réel et la fonction de verrouillage de style. Les deux modèles partagent les C2PA Content Credentials, le filigrane numérique invisible SynthID, la génération de texte multilingue (plus de 10 langues), une date limite de connaissance de janvier 2025, complétée par une recherche en temps réel.

Google propose cinq cadres de prompts pour obtenir les meilleurs résultats. Le premier est le text-to-image (sans référence), avec la formule : sujet + action + lieu/contexte + composition + style. Exemple de prompt : « Un ingénieur logiciel fatigué d’une trentaine d’années, avec des cernes sous les yeux, assis à un bureau en désordre entouré de tasses de café vides. Elle fixe un écran qui émet une faible lueur verte. Plan moyen en contre-plongée. Palette cinématographique, tons bleu-vert doux, éclairage documentaire. »

Le deuxième est la génération multimodale (avec image de référence), avec la formule : image de référence + indication de relation + nouvelle scène. Exemple de prompt : « En utilisant la photo du produit jointe comme objet et le moodboard joint comme référence de style, placez le produit dans un environnement de café en bord de mer baigné de soleil. Maintenez les proportions du produit avec précision. Photo de style de vie, qualité éditoriale. »

Le troisième est l’édition d’image (conversationnelle), avec cinq verbes d’édition principaux : Ajouter, Supprimer, Remplacer, Changer, Créer. Astuce professionnelle : dites toujours au modèle ce qu’il faut conserver et ce qu’il faut changer ; ajoutez « Gardez le visage et les vêtements du sujet complètement inchangés » pour réduire la dérive de la sortie.

Le quatrième est la visualisation de données en temps réel. Nano Banana 2 peut extraire des informations en temps réel du web et les visualiser. Exemple de prompt : « Recherchez l’indice de qualité de l’air d’aujourd’hui à Londres. Représentez les données sous la forme d’un tableau de bord illustré propre dans une maquette d’interface utilisateur de smartphone. Utilisez un système d’icônes simple : vert pour bon, ambre pour moyen, rouge pour mauvais. Incluez les noms des arrondissements et un horodatage. »

La fonction de données en temps réel est prometteuse mais pas infaillible ; il est connu que les dates et les statistiques peuvent extraire des informations obsolètes, donc une vérification croisée avant publication est recommandée.

Le cinquième est d’écrire des prompts comme un directeur créatif : spécifiez les options d’éclairage (lumière douce, dramatique, naturelle chaude, produit net), le langage de l’appareil photo et de l’objectif (par exemple, « Pris avec un Fujifilm X100V, science des couleurs naturelle »), les raccourcis d’étalonnage des couleurs (nostalgique, cinématographique émotionnel, commercial propre), les indices de matière et de texture (par exemple, « Veste en jean vintage oversize, indigo pré-lavé, marques de tension aux coutures »).

En matière de rendu de texte, la précision textuelle de Nano Banana 2 est actuellement parmi les meilleures de tous les modèles d’IA d’image. Pour maximiser l’efficacité : utilisez toujours des guillemets pour encadrer le texte à rendre ; indiquez la police ou décrivez-la ; spécifiez la couleur et la relation de taille ; utilisez l’astuce du texte en premier – demandez d’abord à Gemini de générer une copie du texte, puis demandez une image contenant cette copie ; spécifiez directement la langue cible pour la localisation ; il n’est pas recommandé de compter sur lui pour générer de longs corps de texte.

Référence rapide des rapports d’aspect : 1:1 pour les publications Instagram, les photos de profil ; 16:9 pour les miniatures YouTube, les présentations ; 9:16 pour les Reels, TikTok, les stories, les publicités mobiles ; 4:5 pour le fil Instagram (meilleur format d’engagement) ; 21:9 pour le cinémascope, les bannières héros de sites web ; 8:1 (Nano Banana 2 uniquement) pour les en-têtes de sites web ultra-larges, les bannières d’e-mails ; 1:8 (NB2 uniquement) pour les assets d’applications mobiles verticales, les graphiques de barre latérale ; 3:2 pour la norme photographique d’impression ; 4:3 pour les diapositives de présentation.

Guide de sélection du modèle : Choisissez Nano Banana 2 pour – itération rapide, médias sociaux, graphiques web, besoin de texte lisible (sa précision textuelle est supérieure à celle de Pro), sensibilité aux coûts (75 % moins cher), besoin de rapports d’aspect extrêmes, construction par lots ; Choisissez Nano Banana Pro pour – impression ou affichage grand format, scènes complexes avec plusieurs sujets nécessitant un réalisme maximal, cohérence de marque importante dans les images en volume, photographie de produits haut de gamme, prompts longs et très spécifiques.

Échecs courants et solutions : Visages fusionnés ou déformés (référence de prompt floue, ajoutez « Gardez chaque personne visuellement distincte ») ; Trop de doigts (régénérez ou recadrez la composition) ; Dérive de style (incluez une phrase de style cohérente dans le prompt ou référencez une sortie précédente) ; Texte illisible (utilisez des guillemets, spécifiez la police, gardez le texte court) ; Données en temps réel obsolètes (vérifiez manuellement) ; La sortie ignore une partie du prompt (décomposez en prompts séquentiels) ; Image floue (ajoutez « Mise au point nette, haute définition ») ; Le rapport d’aspect revient par défaut (indiquez le rapport au début du prompt).

En ce qui concerne les filigranes et la détection IA, chaque image générée par Nano Banana porte deux couches : SynthID – un filigrane numérique invisible au niveau du pixel, imperceptible à l’œil humain mais lisible par les outils de détection ; la fonction de vérification SynthID dans l’application Gemini a été utilisée plus de 20 millions de fois ; C2PA Content Credentials – une norme de métadonnées qui enregistre comment l’image a été créée, y compris la participation de l’IA ; la fonction de vérification est en cours de déploiement dans l’application Gemini. Cela signifie que les images générées par l’IA sont techniquement identifiables avec les bons outils, mais les filigranes sont invisibles lors d’une navigation informelle sur les réseaux sociaux.

Les amorces de prompts de référence incluent : prompts de modèles de produits, graphiques de médias sociaux avec texte, diapositives d’infographies, séries cohérentes de personnages, restauration de photos, assets marketing localisés, etc.

Texte compilé par Wedoany. Toute citation par IA doit mentionner la source « Wedoany ». En cas de contrefaçon ou d'autre problème, veuillez nous en informer rapidement ; nous modifierons ou supprimerons le contenu le cas échéant. Courriel : news@wedoany.com

États-Unis