Comprendre le Fonctionnement des LLMs de type Transformer

Bienvenue dans cet atelier pratique dédié à l’un des concepts les plus importants de l’intelligence artificielle moderne : l’architecture Transformer. Ces modèles sont le moteur de la révolution de l’IA générative, propulsant des outils que vous utilisez peut-être quotidiennement, comme ChatGPT.

Pour passer de la simple utilisation à une véritable compréhension, il est essentiel de maîtriser leurs mécanismes internes. C’est l’objectif de la série d’exercices qui suit. Conçue comme un parcours d’apprentissage progressif pour débutants, elle vous guidera pas à pas à travers les concepts fondamentaux : de la manière dont le texte est transformé en nombres (tokenisation et embeddings) jusqu’au cœur battant du système, le fameux mécanisme d’auto-attention. À la fin de cette série, vous aurez bâti une intuition solide sur le fonctionnement interne des LLMs

Exercice 1 : Le Sac de Mots (Bag-of-Words)

Exercice

Considérez la phrase suivante : « Le chat dort et le chien dort ». En utilisant le modèle “Sac de Mots” (Bag-of-Words), comment cette phrase serait-elle représentée sous forme de vecteur, en comptant la fréquence de chaque mot ?

Solution

Explication

Exercice 2 : Limites du Sac de Mots et Avantages des Embeddings

Exercice

Quelle est la principale faiblesse du modèle “Sac de Mots” que les “Word Embeddings” (plongements de mots) cherchent à résoudre ?

Solution

Explication

Exercice 3 : L'innovation clé de l'architecture Transformer

Exercice

Quel est le mécanisme central introduit par le papier “Attention Is All You Need” qui a révolutionné le traitement du langage et qui est au cœur de l’architecture Transformer ?

Solution

Explication

Exercice 4 : Tokenisation par sous-mots (Subword Tokenization)

Exercice

Pourquoi les LLMs modernes comme GPT utilisent-ils une tokenisation par sous-mots (ex: BPE, WordPiece) plutôt qu’une tokenisation par mots entiers ? Donnez deux avantages majeurs.

Solution

Explication

Exercice 5 : Tokenisation pratique avec Hugging Face

Exercice

En utilisant la bibliothèque transformers de Hugging Face, montrez le code Python simple pour tokeniser la phrase “L’IA transforme le monde.” avec le tokenizer camembert-base et affichez les input_ids résultants.

Solution

from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("camembert-base")
phrase = "L'IA transforme le monde."

inputs = tokenizer(phrase)
input_ids = inputs["input_ids"]

print(f"Phrase: {phrase}")
print(f"Input IDs: {input_ids}")

# La sortie sera quelque chose comme :
# Phrase: L'IA transforme le monde.
# Input IDs: [5, 144, 2531, 12028, 121, 622, 6, 4]

Explication

Exercice 6 : Les trois étages principaux d'un Transformer

Exercice

Nommez et décrivez brièvement les trois étages principaux par lesquels passe une information dans un LLM de type Transformer, de l’entrée de texte brute à la sortie finale.

Solution

Explication

Exercice 7 : L'importance de l'embedding de position

Exercice

Le mécanisme d’auto-attention traite tous les mots d’une phrase simultanément, sans notion d’ordre inhérente. Comment un Transformer sait-il alors si le mot “chat” est au début ou à la fin de la phrase “Le chat poursuit la souris” ?

Solution

Explication

Exercice 8 : Composants d'un Bloc Transformer

Exercice

Un bloc Transformer standard est composé de deux sous-couches principales. Quelles sont-elles ?

Solution

Explication

Exercice 9 : Le but de l'auto-attention

Exercice

En termes simples, que calcule le mécanisme d’auto-attention pour un mot donné dans une phrase ?

Solution

Explication

Exercice 10 : Les vecteurs Clé, Requête et Valeur (K, Q, V)

Exercice

Dans le mécanisme d’auto-attention, chaque embedding de mot est projeté en trois vecteurs distincts : Requête (Query), Clé (Key) et Valeur (Value). Quelle est l’analogie commune utilisée pour expliquer leur rôle ?

Solution

Explication

Exercice 11 : Calcul simplifié d'un score d'attention

Exercice

Supposons que pour la phrase “le robot pense”, le vecteur Requête (Q) du mot “pense” soit [1, 0] et le vecteur Clé (K) du mot “robot” soit [0.8, 0.6]. Calculez le score d’attention brut (avant normalisation) entre ces deux mots en utilisant le produit scalaire.

Solution

Explication

Exercice 12 : Rôle de la fonction Softmax

Exercice

Après avoir calculé les scores d’attention bruts pour un mot avec tous les autres mots de la séquence, quelle fonction mathématique est appliquée et quel est son but ?

Solution

Explication

Exercice 13 : L'attention Multi-Têtes (Multi-Head Attention)

Exercice

Lors de la génération de texte (inférence), un LLM génère un mot à la fois. Quel mécanisme d’optimisation courant, lié à l’attention, permet d’accélérer considérablement ce processus en évitant des calculs redondants ?

Solution

Explication

Exercice 15 : Le concept de Mixture of Experts (MoE)

Exercice

Certains modèles très larges (comme Mixtral) utilisent une architecture “Mixture of Experts” (MoE). Quel est le principe de base de cette approche et son principal avantage ?

Exercice 1 : Le Sac de Mots (Bag-of-Words)

Exercice

Solution

Explication

Exercice 2 : Limites du Sac de Mots et Avantages des Embeddings

Exercice

Solution

Explication

Exercice 3 : L'innovation clé de l'architecture Transformer

Exercice

Solution

Explication

Exercice 4 : Tokenisation par sous-mots (Subword Tokenization)

Exercice

Solution

Explication

Exercice 5 : Tokenisation pratique avec Hugging Face

Exercice

Solution

Explication

Exercice 6 : Les trois étages principaux d'un Transformer

Exercice

Solution

Explication

Exercice 7 : L'importance de l'embedding de position

Exercice

Solution

Explication

Exercice 8 : Composants d'un Bloc Transformer

Exercice

Solution

Explication

Exercice 9 : Le but de l'auto-attention

Exercice

Solution

Explication

Exercice 10 : Les vecteurs Clé, Requête et Valeur (K, Q, V)

Exercice

Solution

Explication

Exercice 11 : Calcul simplifié d'un score d'attention

Exercice

Solution

Explication

Exercice 12 : Rôle de la fonction Softmax

Exercice

Solution

Explication

Exercice 13 : L'attention Multi-Têtes (Multi-Head Attention)

Exercice

Solution

Explication

Exercice 15 : Le concept de Mixture of Experts (MoE)

Exercice

Solution

Explication

Plus chez DeepLearn Academy

JOIN US