Je rencontre souvent des personnes qui s’imaginent que l’intelligence artificielle lit les mots exactement comme nous. C’est faux. L’intelligence artificielle fragmente notre langage en unités élémentaires pour le digérer. Ces briques de construction s’appellent des tokens. Un token ne correspond pas toujours à un mot entier dans nos dictionnaires. Selon la structure du texte et le contexte, il prend la forme d’un mot complet, d’une syllabe, d’une lettre unique ou d’un simple signe de ponctuation.
Les espaces situés avant les mots génèrent aussi des identifiants distincts. Retenons une règle simple pour la langue anglaise : un token représente environ quatre caractères, soit l’équivalent de trois quarts d’un mot. Ainsi, une centaine de tokens se traduit par environ soixante-quinze mots.
Le voyage des données dans le réseau :
Les modèles de langage manipulent uniquement des valeurs numériques. Tout l’engrenage repose sur une traduction constante effectuée par le système.
La première phase s’appelle la tokenisation ou l’encodage. Un composant spécialisé découpe votre texte brut en morceaux individuels. Le système attribue ensuite à chaque fragment un identifiant numérique unique issu de son dictionnaire interne.
Vient ensuite le traitement géométrique. Ces identifiants se transforment en vecteurs de grands nombres nommés embeddings. Le réseau de neurones utilise ces coordonnées pour analyser les relations sémantiques profondes.
La prédiction s’active alors. Le modèle évalue les probabilités mathématiques pour déterminer le jeton suivant le plus logique. Il l’ajoute à la suite puis recommence cette tâche de manière séquentielle.
Enfin, le décodage convertit cette chaîne de nombres en caractères lisibles sur l’écran.
L’impact direct sur les applications :
Ces fragments dictent les règles du jeu technologique, financier et structurel de l’intelligence artificielle.
- Chaque modèle possède une limite de mémoire appelée fenêtre de contexte. Dépasser ce volume entraîne une amnésie immédiate des premiers échanges de la discussion.
- Les fournisseurs d’infrastructure facturent les développeurs au volume. Le coût varie selon le nombre de jetons reçus en entrée et produits en sortie.
- La vitesse de calcul dépend de la quantité de jetons à générer l’un après l’autre.
- Les outils privilégient historiquement l’anglais. Les langues basées sur d’autres alphabets se fragmentent en de nombreux morceaux fins, ce qui augmente le coût de traitement.
Regardons de plus près sous le capot :
Prenons un exemple concret avec la phrase : “Tokenization is fascinating.” Le tokenizer ne lit pas trois mots distincts. Il divise la séquence en quatre unités spécifiques.
["Token", "ization", " is", " fascinating."]
Isoler la racine du mot et son suffixe permet à la machine d’interpréter des variations grammaticales inconnues.
Trois recettes mathématiques pour créer des dictionnaires :
Les laboratoires d’intelligence artificielle exploitent des approches algorithmiques précises pour bâtir leur liste de mots de référence.
Le Byte-Pair Encoding ou BPE équipe des architectures comme GPT-4 ou LLaMA. Il assemble d’abord les caractères individuels puis fusionne les combinaisons les plus fréquentes pour atteindre une cible de vocabulaire définie.
Le WordPiece, conçu par Google pour le modèle BERT, s’appuie sur un calcul d’utilité prédictive. Il valide la fusion de deux éléments uniquement si cette association aide le réseau à anticiper la suite du texte durant l’entraînement.
L’Unigram équipe quant à lui des structures comme T5. Il suit le chemin inverse en partant d’un dictionnaire massif composé de mots entiers pour en éliminer progressivement les fragments les moins pertinents.
Des mots à la géométrie :
Chaque unité textuelle passe par une étape de traduction vectorielle. Le dictionnaire interne attribue par exemple le numéro 50256 au mot “the”. Ce numéro pointe vers une liste de valeurs numériques appelée vecteur d’embedding. Dans cet espace conceptuel complexe, les coordonnées du mot “roi” se situent mathématiquement très près du mot “reine”.
L’injustice de la taxe linguistique :
L’omniprésence des données anglophones lors de la phase d’apprentissage produit des disparités flagrantes entre les cultures.LangueMot testéVolume de tokens
| Anglais | computer | 1 token |
| Espagnol | computadora | 2 à 3 tokens |
| Hindi | कंप्यूटर | 5 à 8 tokens |
Les utilisateurs non anglophones saturent les capacités de mémorisation de l’outil beaucoup plus rapidement. La facture financière grimpe aussi plus vite.
Le mécanisme de sélection du mot suivant :
La machine se comporte comme un moteur de suggestion de texte. Devant l’amorce “Le ciel est…”, le système calcule des probabilités pour chaque option disponible dans sa base de données.
- ” bleu” : 85 % de probabilité
- ” clair” : 8 % de probabilité
- ” tombant” : 2 % de probabilité
Deux paramètres influencent la sélection finale de ces éléments. La température modifie la part de hasard. Une valeur basse pousse l’IA à choisir l’option la plus évidente tandis qu’une valeur haute encourage la prise de risque. Le Top-P limite la sélection aux options les plus probables dont la somme atteint un pourcentage cible.
Le coût matériel de l’attention :
La consommation de ressources mémoire s’explique par l’architecture Transformer et son module d’attention.
Chaque unité de texte doit analyser et évaluer sa pertinence par rapport à l’ensemble des autres unités de la phrase. Une requête de dix jetons nécessite cent comparaisons individuelles. Une longue requête de dix mille jetons impose cent millions de calculs. Cette croissance quadratique sature la mémoire vive des serveurs de calcul.
Les instructions invisibles de contrôle :
Certains codes intégrés au dictionnaire n’apparaissent jamais à l’écran mais guident le comportement profond du réseau de neurones.
Le jeton de séparation ou de fin de document signale au modèle que le message se termine pour éviter qu’il ne génère du texte indéfiniment. Le jeton système se place en tête d’échange pour fixer les consignes de sécurité ou le rôle de l’assistant. Le jeton de remplissage égalise la longueur des données traitées par lots pour optimiser le travail des cartes graphiques.
L’horizon de l’optimisation :
Les ingénieurs cherchent de nouvelles solutions pour réduire l’empreinte de ces calculs.
Le décodage spéculatif fait collaborer un modèle miniature et rapide avec un modèle géant pour valider plusieurs morceaux de texte simultanément. En parallèle, la multimodalité native permet d’encoder directement des données visuelles ou sonores sans passer par une description textuelle préalable.
Analyse détaillée d’une phrase modèle :
Étudions le comportement du tokenizer cl100k_base de la firme OpenAI face à une phrase spécifique.Fragment de texteIdentifiant numériqueNature du fragment
| Token | 31343 | Racine de mot |
| ization | 3732 | Suffixe |
| is | 374 | Mot précédé d’un espace |
| un | 301 | Préfixe précédé d’un espace |
| believable | 83231 | Mot complet |
| , | 11 | Ponctuation |
| isn | 1846 | Forme verbale contractée |
| ‘t | 432 | Fin de contraction |
| it? | 1212 | Mot associé à un symbole |
Cet énoncé court de cinq mots produit finalement neuf éléments numériques distincts pour la machine. Ce cas concret illustre deux points importants. Les termes complexes se divisent pour économiser la mémoire du dictionnaire général. De plus, la présence d’espaces initiaux modifie totalement la valeur numérique associée au texte.