Maîtriser le Prompting Multimodal avec Gemini

Bienvenue dans cette série d’exercices pratiques dédiée à l’art et la science du prompting multimodal avec la famille de modèles Gemini de Google. Si les modèles de langage ont révolutionné le traitement du texte, la véritable frontière de l’intelligence artificielle se situe désormais dans leur capacité à comprendre et à raisonner simultanément sur plusieurs types de données.

Au-delà de la simple interaction textuelle, la capacité à fusionner des informations issues de textes, d’images et de vidéos est au cœur des applications d’IA les plus innovantes aujourd’hui. C’est une compétence essentielle pour tout futur ingénieur ou chercheur dans notre domaine.

Cet ensemble de 17 exercices a été conçu pour vous guider à travers une progression logique. Nous commencerons par les concepts fondamentaux – comme la sélection du bon modèle et le contrôle de ses paramètres – pour ensuite aborder des cas d’usage concrets et des techniques avancées, telles que le raisonnement sur plusieurs images, l’analyse vidéo et l’intégration de données en temps réel via le Function Calling.

Exercice 1 : Sélection du Modèle Gemini Approprié (Théorique)

Exercice

Un développeur souhaite créer trois applications distinctes :

Une application mobile Android qui résume des conversations en temps réel, fonctionnant entièrement sur l’appareil pour des raisons de latence et de confidentialité.
Un chatbot web à usage général, capable de comprendre des requêtes complexes en texte et en image, nécessitant un excellent équilibre entre coût et performance.
Un système de recherche de pointe pour une institution scientifique, devant analyser des articles de recherche complexes (texte, diagrammes, vidéos) et effectuer des raisonnements profonds.

Pour chaque application, quel modèle de la famille Gemini (Nano, Pro/Flash, Ultra) serait le plus approprié ? Justifiez votre choix en fonction des critères de capacité, latence et coût.

Solution

Explication

Exercice 2 : Contrôle de la Créativité vs Déterminisme (Pratique)

Exercice

Vous souhaitez utiliser Gemini pour générer une description d’une image d’un paysage surréaliste. Vous voulez deux types de réponses :
a) Une description très créative, poétique et inattendue.
b) Une description factuelle, précise et littérale de ce qui est visible.

Quel paramètre principal de l’API ajusteriez-vous pour obtenir ces deux résultats ? Donnez une valeur approximative pour chaque cas.

Solution

Explication

Exercice 3 : Premier Prompt Multimodal Simple

Exercice

Vous disposez d’une image d’une pomme rouge sur une table en bois. Rédigez un prompt simple pour Gemini Pro Vision demandant d’identifier l’objet principal et sa couleur.

Solution

Prompt:
"Décris l'objet principal visible dans cette image, ainsi que sa couleur."
[Image d'une pomme rouge sur une table]

Explication

Exercice 4 : L'Importance de l'Assignation d'un Rôle

Exercice

Analysez la différence entre ces deux prompts destinés à analyser une image d’un graphique financier. Lequel est susceptible de donner une réponse de meilleure qualité et pourquoi ?

Prompt A : “Explique ce graphique.”
Prompt B : “Tu es un analyste financier expert. Analyse ce graphique boursier et résume les tendances clés, les points de support et de résistance pour un investisseur débutant.”

Solution

Explication

Exercice 5 : Impact de l'Ordre des Éléments

Exercice

Vous avez une image et un texte long et complexe. Votre objectif est que le modèle résume le texte en tenant compte du contexte fourni par l’image. Expérimentez mentalement avec deux structures de prompt :

[Image] [Long texte] “Résume le texte ci-dessus en te basant sur l’image.”
“En te basant sur l’image ci-dessous, résume le texte suivant : ” [Long texte] [Image]

Quelle structure est généralement plus efficace pour les modèles comme Gemini et pourquoi ?

Solution

Explication

Exercice 6 : Cas d'Usage - Assistant de Design d'Intérieur (Pratique)

Exercice

Un utilisateur envoie une photo de son salon vide et fournit le texte suivant : “J’aime le style scandinave, minimaliste, avec des couleurs claires et des touches de bois naturel. Je veux un espace cosy et lumineux.”

Rédigez un prompt pour Gemini qui génère trois suggestions de design concrètes basées sur l’image et les préférences de l’utilisateur.

Solution

Prompt:
"Tu es un décorateur d'intérieur expert spécialisé dans le design scandinave.
En te basant sur l'image de ce salon et les préférences de l'utilisateur ('style scandinave, minimaliste, couleurs claires, bois naturel, cosy, lumineux'), propose trois suggestions concrètes d'aménagement. Pour chaque suggestion, inclus un type de meuble, un choix de couleur et un accessoire.

[Image du salon vide]
"

Explication

Exercice 7 : Cas d'Usage - Extraction d'Informations sur un Ticket de Caisse

Exercice

Vous avez une image d’un ticket de caisse. Votre tâche est de créer un prompt pour Gemini Pro Vision qui extrait le nom du marchand, la date de la transaction et le montant total, et qui structure ces informations au format JSON.

Solution

L’instanciation Contact(nom=”Jean Dupont”) échouera avec une ValidationError car le champ adresse_email est manquant. Une meilleure définition du modèle pour gérer les données potentiellement manquantes serait de rendre les champs optionnels :

from pydantic import BaseModel, EmailStr
from typing import Optional

class ParsedContact(BaseModel): nom: Optional[str] = None adresse_email: Optional[EmailStr] = None

Explication

Exercice 8 : Raisonnement sur Plusieurs Images

Exercice

Vous avez deux images : l’une montrant les ingrédients d’une recette (farine, œufs, sucre, chocolat) et l’autre montrant le gâteau fini. Rédigez un prompt qui demande à Gemini d’identifier la transformation qui a eu lieu entre les deux images.

Solution

from pydantic import BaseModel
from enum import Enum

class Sentiment(str, Enum): POSITIF = “POSITIF” NEGATIF = “NÉGATIF” NEUTRE = “NEUTRE” class AnalyseSentiment(BaseModel): sentiment: Sentiment # Simulation de sorties LLM llm_output1 = “POSITIF” llm_output2 = “INCONNU” analyse1 = AnalyseSentiment(sentiment=llm_output1) print(analyse1) # > sentiment=<Sentiment.POSITIF: ‘POSITIF’> try: AnalyseSentiment(sentiment=llm_output2) except ValueError as e: print(e)

Explication

Exercice 9 : Cas d'Usage Vidéo - Recherche Sémantique

Exercice

Vous avez une longue vidéo (30 minutes) d’une conférence sur l’écologie. Vous voulez trouver le moment précis où l’orateur parle de “l’impact des microplastiques sur les océans”. Rédigez un prompt pour Gemini, en supposant que la vidéo a été fournie en entrée.

Solution

Prompt:
"Analyse cette vidéo de conférence. Identifie et fournis le timestamp (horodatage) exact du début du segment où l'orateur commence à discuter de 'l'impact des microplastiques sur les océans'."

[Vidéo de la conférence]

Explication

Exercice 10 : Parser une Liste d'Objets Structurés

Exercice

Un LLM a extrait une liste de livres d’un texte et l’a formatée en JSON. Créez les modèles Pydantic nécessaires pour valider la structure suivante : une liste de livres, où chaque livre a un titre et un auteur.

Solution

from pydantic import BaseModel, TypeAdapter
from typing import List

class Livre(BaseModel):
  titre: str
  auteur: str

# Simulation de la sortie JSON du LLM
llm_json_output = """
[
  {"titre": "Dune", "auteur": "Frank Herbert"},
  {"titre": "1984", "auteur": "George Orwell"}
]
"""
import json
data = json.loads(llm_json_output)

# Utilisation de TypeAdapter pour valider une liste à la racine
LivresListAdapter = TypeAdapter(List[Livre])
liste_livres_validee = LivresListAdapter.validate_python(data)

print(liste_livres_validee)

Explication

Exercice 10 : Cas d'Usage Vidéo - Résumé et QA

Exercice

En utilisant la même vidéo de conférence de 30 minutes, rédigez un prompt qui demande deux choses : un résumé en 5 points clés et la réponse à une question précise qui nécessite de synthétiser des informations de différentes parties de la vidéo.

Solution

Prompt:
"À partir de la vidéo de cette conférence sur l'écologie, effectue les deux tâches suivantes :
1. Génère un résumé concis en 5 points clés.
2. Réponds à la question suivante : 'Selon l'orateur, quelles sont les trois principales solutions proposées pour réduire la pollution plastique à la source ?'

[Vidéo de la conférence]
"

Explication

Exercice 11 : Introduction au "Function Calling"

Exercice

Qu’est-ce que le “Function Calling” dans le contexte des LLMs comme Gemini ? Pourquoi est-ce une fonctionnalité si puissante pour créer des applications intelligentes ?

Solution

Explication

Exercice 12 : "Function Calling" - Exemple Simple

Exercice

Un utilisateur demande : “Quel temps fait-il à Paris ?”. Vous avez une fonction Python get_weather(city: str) disponible. Comment structureriez-vous l’appel à l’API Gemini pour qu’il utilise cette fonction ? Décrivez les 3 étapes principales du processus.

Solution

Les 3 étapes sont :
Premier appel à Gemini : On envoie le prompt de l’utilisateur (“Quel temps fait-il à Paris ?”) ainsi que la définition de la fonction get_weather au modèle.

// Déclaration de la fonction pour le modèle
tools = [
{
"function_declarations": [
{
"name": "get_weather",
"description": "Obtient la météo actuelle pour une ville donnée.",
"parameters": {
"type": "object",
"properties": {
"city": {
"type": "string",
"description": "La ville pour laquelle obtenir la météo."
}
},
"required": ["city"]
}
}
]
}
]
// Envoi du prompt de l'utilisateur avec les outils
model.generate_content("Quel temps fait-il à Paris ?", tools=tools)

Réponse de Gemini et Appel de la Fonction : Le modèle ne répond pas avec la météo, mais avec un appel de fonction structuré.

// Réponse attendue de Gemini
{
"functionCall": {
"name": "get_weather",
"args": { "city": "Paris" }
}
}

Votre code applicatif doit alors parser cette réponse et exécuter get_weather(“Paris”). Supposons que cela retourne : {“temperature”: “19°C”, “condition”: “Ensoleillé”}.
Second appel à Gemini : On renvoie le résultat de la fonction au modèle pour qu’il formule une réponse finale en langage naturel.

// Envoi du résultat au modèle
model.generate_content(
[
tool_result_from_api_call, // Contient le résultat {"temperature": ...}
user_prompt // On peut redonner le contexte initial
]
)

Gemini génère alors la réponse finale : “Il fait actuellement 19°C et le temps est ensoleillé à Paris.”

Explication

Exercice 13 : Décomposition de Tâche

Exercice

Un utilisateur demande : “Rédige un rapport sur l’impact de l’annonce des résultats trimestriels de la société X sur le cours de son action, en te basant sur une image du cours de l’action de la semaine passée.”
Comment décomposeriez-vous ce prompt complexe en sous-tâches plus simples pour guider Gemini vers un meilleur résultat ?

Solution

Explication

Exercice 14 : Prompting "Few-Shot" en Multimodal

Exercice

Vous voulez que Gemini identifie le style architectural d’un bâtiment à partir d’une image. Pour améliorer la précision, vous décidez d’utiliser une approche “few-shot”. Rédigez un prompt qui inclut deux exemples avant de poser la question sur une nouvelle image.

Solution

Prompt:
"Tu es un expert en histoire de l'architecture. Ta tâche est d'identifier le style architectural principal d'un bâtiment à partir d'une image. Voici quelques exemples :

Exemple 1 :
[Image de la Cathédrale Notre-Dame de Paris]
Sortie : Gothique

Exemple 2 :
[Image du Parthénon à Athènes]
Sortie : Grec Classique (Ordre dorique)

Maintenant, identifie le style architectural du bâtiment dans l'image suivante :

[Image du Colisée de Rome]
Sortie :
"

Explication

Exercice 15 : Gestion de l'Ambigüité dans une Image

Exercice

Vous avez une image ambiguë : on y voit une personne tenant un objet qui pourrait être un téléphone ou une petite télécommande. Votre objectif est d’obtenir une description qui reconnaît cette ambiguïté. Rédigez un prompt pour encourager Gemini à exprimer l’incertitude.

Solution

Prompt:
"Décris la scène de cette image. Si certains objets ne sont pas clairement identifiables, mentionne les différentes possibilités et indique ton niveau de confiance pour chaque interprétation."

[Image ambiguë]

Explication

Exercice 16 : Évaluation de la Sortie d'un Prompt

Exercice

Vous avez créé un prompt pour que Gemini génère des descriptions de produits à partir d’images pour un site e-commerce. Quels sont les trois critères qualitatifs que vous utiliseriez pour évaluer la qualité des descriptions générées ?

Solution

Explication

Exercice 17 : Scénario de Synthèse Complexe

Exercice

Vous êtes chargé de créer un système d’aide pour un technicien de maintenance. Le technicien envoie une courte vidéo d’une machine en panne qui émet un bruit anormal. Il ajoute le texte : “Modèle A-451. Le voyant rouge clignote. Le bruit a commencé après la dernière mise à jour du firmware.” Vous avez accès à une fonction get_maintenance_manual(model_name: str) qui renvoie le manuel de maintenance du modèle.

Rédigez le pseudo-code et les prompts nécessaires pour un système qui :

Décide d’appeler la fonction pour obtenir le bon manuel.
Analyse la vidéo et le texte de l’utilisateur.
Consulte le manuel retourné par la fonction.
Fournit au technicien une liste d’étapes de diagnostic probables.

Solution

Étape 1 : Définition de l’outil et premier appel

// Pseudo-code de l'application
tools = [
define_function("get_maintenance_manual", "Récupère le manuel de maintenance pour un modèle de machine spécifique.", {"model_name": "string"})
]
user_input = "Modèle A-451. Le voyant rouge clignote. Le bruit a commencé après la dernière mise à jour du firmware."
user_video = [Vidéo de la machine en panne]

// Premier appel à Gemini
response1 = model.generate_content(user_input, user_video, tools=tools)

// La réponse de Gemini sera un appel de fonction :
// {"functionCall": {"name": "get_maintenance_manual", "args": {"model_name": "A-451"}}}

Étape 2 : Exécution de l’outil et deuxième appel

// L'application exécute la fonction
manual_content = get_maintenance_manual("A-451") // Renvoie le texte du manuel

// Deuxième appel à Gemini avec tout le contexte
prompt2 = f"""
Tu es un assistant expert pour technicien de maintenance.
Un technicien a un problème avec une machine 'Modèle A-451'.

Voici ses observations :
- Texte : "{user_input}"
- Vidéo : [Lien vers la vidéo montrant un voyant rouge clignotant et un bruit anormal]

Voici la section 'Dépannage' du manuel de maintenance officiel :
---
{manual_content}
---

En te basant sur TOUTES ces informations (texte, vidéo et manuel), fournis une liste d'étapes de diagnostic claires et ordonnées que le technicien devrait suivre.
"""

final_response = model.generate_content(prompt2, video=user_video)

Exercice 1 : Sélection du Modèle Gemini Approprié (Théorique)

Exercice

Solution

Explication

Exercice 2 : Contrôle de la Créativité vs Déterminisme (Pratique)

Exercice

Solution

Explication

Exercice 3 : Premier Prompt Multimodal Simple

Exercice

Solution

Explication

Exercice 4 : L'Importance de l'Assignation d'un Rôle

Exercice

Solution

Explication

Exercice 5 : Impact de l'Ordre des Éléments

Exercice

Solution

Explication

Exercice 6 : Cas d'Usage - Assistant de Design d'Intérieur (Pratique)

Exercice

Solution

Explication

Exercice 7 : Cas d'Usage - Extraction d'Informations sur un Ticket de Caisse

Exercice

Solution

Explication

Exercice 8 : Raisonnement sur Plusieurs Images

Exercice

Solution

Explication

Exercice 9 : Cas d'Usage Vidéo - Recherche Sémantique

Exercice

Solution

Explication

Exercice 10 : Parser une Liste d'Objets Structurés

Exercice

Solution

Explication

Exercice 10 : Cas d'Usage Vidéo - Résumé et QA

Exercice

Solution

Explication

Exercice 11 : Introduction au "Function Calling"

Exercice

Solution

Explication

Exercice 12 : "Function Calling" - Exemple Simple

Exercice

Solution

Explication

Exercice 13 : Décomposition de Tâche

Exercice

Solution

Explication

Exercice 14 : Prompting "Few-Shot" en Multimodal

Exercice

Solution

Explication

Exercice 15 : Gestion de l'Ambigüité dans une Image

Exercice

Solution

Explication

Exercice 16 : Évaluation de la Sortie d'un Prompt

Exercice

Solution

Explication

Exercice 17 : Scénario de Synthèse Complexe

Exercice

Solution

Explication

Plus chez DeepLearn Academy

JOIN US