HomeExercicesMaîtriser le Prompting Multimodal avec Gemini

Maîtriser le Prompting Multimodal avec Gemini

Bienvenue dans cette série d’exercices pratiques dédiée à l’art et la science du prompting multimodal avec la famille de modèles Gemini de Google. Si les modèles de langage ont révolutionné le traitement du texte, la véritable frontière de l’intelligence artificielle se situe désormais dans leur capacité à comprendre et à raisonner simultanément sur plusieurs types de données.

Au-delà de la simple interaction textuelle, la capacité à fusionner des informations issues de textes, d’images et de vidéos est au cœur des applications d’IA les plus innovantes aujourd’hui. C’est une compétence essentielle pour tout futur ingénieur ou chercheur dans notre domaine.

Cet ensemble de 17 exercices a été conçu pour vous guider à travers une progression logique. Nous commencerons par les concepts fondamentaux – comme la sélection du bon modèle et le contrôle de ses paramètres – pour ensuite aborder des cas d’usage concrets et des techniques avancées, telles que le raisonnement sur plusieurs images, l’analyse vidéo et l’intégration de données en temps réel via le Function Calling.

Exercice 1 : Sélection du Modèle Gemini Approprié (Théorique)

Exercice

Un développeur souhaite créer trois applications distinctes :

  1. Une application mobile Android qui résume des conversations en temps réel, fonctionnant entièrement sur l’appareil pour des raisons de latence et de confidentialité.

  2. Un chatbot web à usage général, capable de comprendre des requêtes complexes en texte et en image, nécessitant un excellent équilibre entre coût et performance.

  3. Un système de recherche de pointe pour une institution scientifique, devant analyser des articles de recherche complexes (texte, diagrammes, vidéos) et effectuer des raisonnements profonds.

Pour chaque application, quel modèle de la famille Gemini (Nano, Pro/Flash, Ultra) serait le plus approprié ? Justifiez votre choix en fonction des critères de capacité, latence et coût.

Exercice 2 : Contrôle de la Créativité vs Déterminisme (Pratique)

Exercice

Vous souhaitez utiliser Gemini pour générer une description d’une image d’un paysage surréaliste. Vous voulez deux types de réponses :
a) Une description très créative, poétique et inattendue.
b) Une description factuelle, précise et littérale de ce qui est visible.

Quel paramètre principal de l’API ajusteriez-vous pour obtenir ces deux résultats ? Donnez une valeur approximative pour chaque cas.

Exercice 3 : Premier Prompt Multimodal Simple

Exercice

Vous disposez d’une image d’une pomme rouge sur une table en bois. Rédigez un prompt simple pour Gemini Pro Vision demandant d’identifier l’objet principal et sa couleur.

Exercice 4 : L'Importance de l'Assignation d'un Rôle

Exercice

Analysez la différence entre ces deux prompts destinés à analyser une image d’un graphique financier. Lequel est susceptible de donner une réponse de meilleure qualité et pourquoi ?

  • Prompt A : “Explique ce graphique.”

  • Prompt B : “Tu es un analyste financier expert. Analyse ce graphique boursier et résume les tendances clés, les points de support et de résistance pour un investisseur débutant.”

Exercice 5 : Impact de l'Ordre des Éléments

Exercice

Vous avez une image et un texte long et complexe. Votre objectif est que le modèle résume le texte en tenant compte du contexte fourni par l’image. Expérimentez mentalement avec deux structures de prompt :

  1. [Image] [Long texte] “Résume le texte ci-dessus en te basant sur l’image.”

  2. “En te basant sur l’image ci-dessous, résume le texte suivant : ” [Long texte] [Image]

Quelle structure est généralement plus efficace pour les modèles comme Gemini et pourquoi ?

Exercice 6 : Cas d'Usage - Assistant de Design d'Intérieur (Pratique)

Exercice

Un utilisateur envoie une photo de son salon vide et fournit le texte suivant : “J’aime le style scandinave, minimaliste, avec des couleurs claires et des touches de bois naturel. Je veux un espace cosy et lumineux.”

Rédigez un prompt pour Gemini qui génère trois suggestions de design concrètes basées sur l’image et les préférences de l’utilisateur.

Exercice 7 : Cas d'Usage - Extraction d'Informations sur un Ticket de Caisse

Exercice

Vous avez une image d’un ticket de caisse. Votre tâche est de créer un prompt pour Gemini Pro Vision qui extrait le nom du marchand, la date de la transaction et le montant total, et qui structure ces informations au format JSON.

Exercice 8 : Raisonnement sur Plusieurs Images

Exercice

Vous avez deux images : l’une montrant les ingrédients d’une recette (farine, œufs, sucre, chocolat) et l’autre montrant le gâteau fini. Rédigez un prompt qui demande à Gemini d’identifier la transformation qui a eu lieu entre les deux images.

Exercice 9 : Cas d'Usage Vidéo - Recherche Sémantique

Exercice

Vous avez une longue vidéo (30 minutes) d’une conférence sur l’écologie. Vous voulez trouver le moment précis où l’orateur parle de “l’impact des microplastiques sur les océans”. Rédigez un prompt pour Gemini, en supposant que la vidéo a été fournie en entrée.

Exercice 10 : Parser une Liste d'Objets Structurés

Exercice

Un LLM a extrait une liste de livres d’un texte et l’a formatée en JSON. Créez les modèles Pydantic nécessaires pour valider la structure suivante : une liste de livres, où chaque livre a un titre et un auteur.

Exercice 10 : Cas d'Usage Vidéo - Résumé et QA

Exercice

En utilisant la même vidéo de conférence de 30 minutes, rédigez un prompt qui demande deux choses : un résumé en 5 points clés et la réponse à une question précise qui nécessite de synthétiser des informations de différentes parties de la vidéo.

Exercice 11 : Introduction au "Function Calling"

Exercice

Qu’est-ce que le “Function Calling” dans le contexte des LLMs comme Gemini ? Pourquoi est-ce une fonctionnalité si puissante pour créer des applications intelligentes ?

Exercice 12 : "Function Calling" - Exemple Simple

Exercice

Un utilisateur demande : “Quel temps fait-il à Paris ?”. Vous avez une fonction Python get_weather(city: str) disponible. Comment structureriez-vous l’appel à l’API Gemini pour qu’il utilise cette fonction ? Décrivez les 3 étapes principales du processus.

Exercice 13 : Décomposition de Tâche

Exercice

Un utilisateur demande : “Rédige un rapport sur l’impact de l’annonce des résultats trimestriels de la société X sur le cours de son action, en te basant sur une image du cours de l’action de la semaine passée.”
Comment décomposeriez-vous ce prompt complexe en sous-tâches plus simples pour guider Gemini vers un meilleur résultat ?

Exercice 14 : Prompting "Few-Shot" en Multimodal

Exercice

Vous voulez que Gemini identifie le style architectural d’un bâtiment à partir d’une image. Pour améliorer la précision, vous décidez d’utiliser une approche “few-shot”. Rédigez un prompt qui inclut deux exemples avant de poser la question sur une nouvelle image.

Exercice 15 : Gestion de l'Ambigüité dans une Image

Exercice

Vous avez une image ambiguë : on y voit une personne tenant un objet qui pourrait être un téléphone ou une petite télécommande. Votre objectif est d’obtenir une description qui reconnaît cette ambiguïté. Rédigez un prompt pour encourager Gemini à exprimer l’incertitude.

Exercice 16 : Évaluation de la Sortie d'un Prompt

Exercice

Vous avez créé un prompt pour que Gemini génère des descriptions de produits à partir d’images pour un site e-commerce. Quels sont les trois critères qualitatifs que vous utiliseriez pour évaluer la qualité des descriptions générées ?

Exercice 17 : Scénario de Synthèse Complexe

Exercice

Vous êtes chargé de créer un système d’aide pour un technicien de maintenance. Le technicien envoie une courte vidéo d’une machine en panne qui émet un bruit anormal. Il ajoute le texte : “Modèle A-451. Le voyant rouge clignote. Le bruit a commencé après la dernière mise à jour du firmware.” Vous avez accès à une fonction get_maintenance_manual(model_name: str) qui renvoie le manuel de maintenance du modèle.

Rédigez le pseudo-code et les prompts nécessaires pour un système qui :

  1. Décide d’appeler la fonction pour obtenir le bon manuel.

  2. Analyse la vidéo et le texte de l’utilisateur.

  3. Consulte le manuel retourné par la fonction.

  4. Fournit au technicien une liste d’étapes de diagnostic probables.

Plus chez DeepLearn Academy