Température des modèles de langage (LLM)

Je commence toujours mes cours sur l’intelligence artificielle par une question simple : comment transformer un algorithme froid en un écrivain inspiré ou en un comptable rigoureux ? La réponse réside dans un unique paramètre de configuration.

La température est le thermostat de la créativité des modèles de langage (LLM). Ce curseur contrôle le niveau de hasard, d’originalité et de prévisibilité du texte produit. Lors de la génération d’une réponse, le modèle ne choisit pas simplement un mot au hasard dans son chapeau. Il calcule d’abord une liste de termes potentiels, attribuant à chacun un score de probabilité. La température intervient pour modifier ces probabilités avant la sélection finale.

Le loto du mot suivant régit chaque phrase générée. Les modèles de langage ne conçoivent pas de textes d’un seul bloc. Ils prédisent les jetons, des fragments de mots ou des syllabes, les uns après les autres. Imaginez le modèle face à ce début de phrase : « L’astronaute a posé le pied sur la… » Le système évalue des milliers d’options basées sur ses données d’entraînement. Son tableau d’affichage interne se dessine avec des probabilités précises. Le mot Lune obtient soixante pour cent de chances. Le mot surface récolte vingt pour cent. Le mot planète capte dix pour cent. Le mot scène obtient un pour cent.

La température redéfinit les règles de cette loterie. À une valeur de zéro, le modèle devient purement déterministe. Il ignore le tirage au sort. Il sélectionne toujours le premier choix, ici le mot Lune. Soumettez la même consigne cent fois, vous obtiendrez la même réponse cent fois.

Un réglage bas, fixé à zéro virgule deux, renforce la position du favori. Le mot Lune grimpe à quatre-vingt-quinze pour cent de chances de sélection. La surface chute à quatre pour cent. La scène tombe à zéro. Le comportement reste prévisible, s’accordant une marge de manœuvre minime.

À une valeur moyenne de zéro virgule sept, l’équilibre s’installe. Les probabilités restent fidèles aux calculs d’origine. La Lune mène la course. Pourtant, la surface conserve une opportunité de vingt pour cent. La planète s’octroie dix pour cent. Le texte gagne en fluidité, évitant la monotonie des réponses robotiques.

Une valeur élevée de un virgule quatre bouleverse la hiérarchie. La Lune chute à vingt-cinq pour cent, la surface à vingt-deux, la planète à vingt. La scène bondit à quinze pour cent. Les écarts s’effacent. Le système choisit des termes improbables. Les phrases deviennent imprévisibles, créatives ou incohérentes.

Deux outils distincts gèrent ce hasard de façon complémentaire. Le paramètre Top-P, ou échantillonnage nucléaire, apparaît souvent aux côtés de la température. Leurs rôles diffèrent. La température modifie les probabilités de tous les mots disponibles en modifiant leurs scores d’origine. Top-P élimine des candidats en fonction d’un seuil cumulé de probabilité. Fixé à zéro virgule neuf, il conserve uniquement les mots de tête dont la somme des pourcentages atteint quatre-vingt-dix pour cent. Il écarte le reste du panier. Même avec une température élevée, les options absurdes disparaissent du choix final.

Sous le capot, le mécanisme repose sur trois étapes mathématiques. Le pipeline de décision traite successivement les logits, la mise à l’échelle, puis les probabilités via la fonction softmax.

La première étape génère les logits, des scores bruts non normalisés. Avant d’écrire, la couche finale du réseau de neurones attribue ces valeurs à chaque élément de son vocabulaire de plus de trente-deux mille termes.

Prenons un cas pratique. Le modèle commence à rédiger : « Le chef a coupé l’… » Le dictionnaire interne affiche des scores bruts pour le mot suivant. Le mot oignon obtient douze. Le mot ail récolte dix. Le mot carotte reçoit huit. Le mot table obtient deux. Ces valeurs brutes ne forment pas encore des pourcentages exploitables car leur somme ne donne pas cent.

La deuxième étape injecte la température. Le modèle divise chaque logit brut par la valeur T sélectionnée.

Scaled Logit = Logit / T

Examinons l’impact de cette formule. Avec une température basse fixée à zéro virgule cinq, la division par un nombre décimal accentue les écarts initiaux. Le score de l’oignon grimpe de douze à vingt-quatre. L’ail passe de dix à vingt. La carotte évolue de huit à xvi. L’écart entre l’oignon et l’ail double, passant de deux à quatre points.

Avec une température élevée fixée à deux, la division par un grand nombre écrase les différences. Le score de l’oignon tombe de douze à six. L’ail passe à cinq. La carotte descend à quatre. La distance entre l’oignon et l’ail se réduit à un seul point.

La troisième étape utilise la fonction Softmax. Cette fonction exponentielle convertit les scores mis à l’échelle en pourcentages réels dont la somme est égale à cent pour cent. Elle amplifie naturellement les valeurs dominantes.

Jeton	Logits bruts	Probabilité à T = 1.0 (Normal)	Probabilité à T = 0.5 (Basse)	Probabilité à T = 2.0 (Élevée)
oignon	12.0	84.3%	98.2% (Quasi-certitude)	56.5%
ail	10.0	11.4%	1.8%	20.8%
carotte	8.0	1.5%	0.0%	7.6%
table	2.0	0.0%	0.0%	0.4% (Option surprise)

À une température de zéro virgule cinq, le mot oignon écrase la concurrence avec quatre-vingt-dix-huit virgule deux pour cent de chances de sélection. Le résultat est classique, sécurisé. À une température de deux, la répartition s’égalise. L’oignon chute. L’ail et la carotte progressent. Le mot table obtient une chance infime d’apparaître.

Les limites de ce spectre révèlent deux cas extrêmes. Quand la valeur de la température tend vers zéro, le score le plus haut élimine tous ses concurrents. Le modèle agit comme une calculatrice rigide. Quand la valeur tend vers l’infini, les écarts s’effacent. Chaque terme du dictionnaire possède une chance égale d’être sélectionné. Le modèle produit un bruit aléatoire dénué de sens.

Voyons comment un même prompt réagit selon ces réglages. Soumettons cette consigne simple : « Rédige un slogan en une phrase pour une nouvelle marque de chaussures de course. »

À basse température, entre zéro virgule un et zéro virgule deux, le modèle choisit les mots les plus communs de son apprentissage. Le résultat s’affiche : « Courez plus vite, allez plus loin avec nos chaussures de course ultimes. » La phrase est logique, correcte, sans surprise. Relancer le prompt donne le même slogan.

À température moyenne, autour de zéro virgule sept, le système équilibre originalité et structure. On obtient : « Conçues pour les sentiers oubliés, redéfinissez votre foulée. » La phrase est fluide, professionnelle. Elle évoque le travail d’un rédacteur humain.

À température élevée, vers un virgule deux, le modèle sélectionne des termes moins évidents. On lit : « Défiez la gravité et lacez votre éclair intérieur. » Le style devient poétique, théâtral, idéal pour une séance de remue-méninges.

À température extrême, au-delà de un virgule huit, la cohérence s’effondre. Le texte donne : « Vélociraptor asphalte chimère murmure néon vitesse pavé. » Les mots s’accumulent sans lien logique.

Le choix du réglage dépend de votre objectif métier. Les développeurs adaptent ce paramètre avec rigueur selon les applications de production.

Cas d’usage	Température cible	Justification
Écriture de code source	0.0	Le code exige de la rigueur. Une improvisation syntaxique bloque l’exécution du programme.
Questions-réponses médicales ou juridiques	0.0 – 0.2	Réduit les hallucinations. Le modèle doit extraire les faits du contexte sans inventer d’informations.
Traduction de langues	0.3	Garantit la fidélité du texte source en autorisant de légères adaptations pour les expressions locales.
Robot d’assistance client	0.5	Assure un ton chaleureux et poli sans dévier des instructions ni inventer des offres commerciales.
Rédaction d’articles de blog	0.7 – 0.8	Produit un style fluide, agréable à lire, évitant les répétitions mécaniques.
Récit créatif et fiction	0.9 – 1.0	Favorise les rebondissements inattendus et les métaphores originales pour l’écriture de romans.
Brainstorming marketing	1.1 – 1.3	Génère des concepts publicitaires décalés et des noms de marque mémorables.

Température des modèles de langage (LLM)

Leave a Reply Cancel reply

Ingénieur en Intelligence Artificielle : Rôles et responsabilités

Ingénieur IA vs Ingénieur Machine Learning

Hyperparamètres (LLM)

JOIN US

Leave a Reply Cancel reply

You may also like

Ingénieur en Intelligence Artificielle : Rôles et responsabilités

Ingénieur IA vs Ingénieur Machine Learning

Hyperparamètres (LLM)

JOIN US