Le token est-il devenu le kWh de l'IA, ou une facture qu'on ne sait pas lire ?

Notes de terrain : 18 juin 2026

On observe un changement de ton assez brutal dans les discussions sur l'IA générative. On est passés de l'émerveillement devant les capacités des modèles à une certaine forme d'inquiétude, voire d'alarme, devant la facture qui arrive. Le signal qui a attiré notre attention ce mois-ci provient d'une analyse de Quentin Gavila qui recadre le token non plus comme une simple ligne tarifaire dans une API, mais comme une unité économique industrielle.

Pour une PME québécoise qui commence à intégrer l'IA dans son support client ou sa rédaction, la question n'est plus seulement de savoir si le modèle est bon, mais de comprendre comment chaque mot généré pèse sur sa marge. On a l'impression de revivre l'époque où on a dû apprendre à lire une facture d'électricité industrielle : c'est technique, c'est opaque, et si on ne fait pas attention, ça peut couler un projet.

Le token : l'unité de mesure d'une usine invisible

Quand on parle de "tokenomics", on ne parle pas de cryptomonnaie. On parle de l'économie du jeton (le token), cette unité de base que les modèles d'IA consomment et produisent. Selon la documentation technique de NVIDIA, les centres de données IA ne sont plus de simples serveurs, mais de véritables "usines à tokens" dont la rentabilité est directement liée à la performance par watt.

Pour nous, au labo, cette analogie avec l'usine est révélatrice. On ne consomme pas un service logiciel classique ; on achète le produit fini d'une chaîne de production qui brûle de l'énergie et utilise de la mémoire GPU à chaque seconde. En 2026, l'inférence (le fait de faire tourner le modèle pour obtenir une réponse) représente désormais 85 % du budget total de l'IA dans les entreprises, éclipsant totalement les coûts d'entraînement qui faisaient les manchettes l'an dernier.

Ce qu'on observe : la fin de l'IA "gratuite" ou forfaitaire

Le passage à une IA plus autonome, ce qu'on appelle les agents, change complètement la donne économique. Un agent ne se contente pas de répondre à une question : il planifie, cherche, réfléchit et se corrige. Ce processus multiplie la consommation de tokens de façon exponentielle. Les chiffres de Zylos Research (cités plus haut) montrent que les modèles agentiques consomment entre 5 et 30 fois plus de tokens par tâche qu'un simple chatbot.

Voici comment on peut visualiser cette tension entre la promesse marketing et la réalité du terrain :

On voit bien le piège : même si le prix unitaire du token baisse, le volume consommé explose. C'est comme si le prix du litre d'essence baissait, mais que votre nouvelle voiture consommait dix fois plus. Pour une PME de 50 employés qui automatise son support, la facture peut passer de quelques centaines de dollars à plusieurs milliers sans qu'on ait changé le nombre de clients.

L'asymétrie des coûts : pourquoi votre facture est illisible

Un autre point qui nous a fait souriller, c'est l'asymétrie entre l'entrée et la sortie. Dans la plupart des modèles, les tokens de sortie coûtent 2 à 5 fois plus cher que les tokens d'entrée. Pourquoi ? Parce que générer chaque nouveau mot demande un passage complet dans tout le cerveau du modèle, alors que lire votre question se fait d'un seul coup.

Si votre IA est trop verbeuse ou si elle "réfléchit" tout haut (les fameux tokens de raisonnement), vous payez le plein prix pour du texte que votre client ne verra peut-être même pas. C'est là que la discipline du TokenOps devient cruciale. Comme le souligne une analyse de Deloitte, il s'agit d'appliquer les principes du FinOps (la gestion des coûts cloud) directement à la consommation de tokens.

Angle PME : Gérer l'IA sans équipe de spécialistes

Pour une PME québécoise qui n'a pas les moyens d'embaucher un expert en "FinOps IA", comment on s'en sort ? On voit souvent trois modèles d'allocation des coûts : l'usage pur, le forfait fixe ou le modèle hybride. Le guide d'Amnic cité précédemment explique que le modèle basé sur l'usage est le plus juste, mais aussi le plus imprévisible pour un budget annuel.

On conseille souvent de regarder une métrique plus "adulte" que le simple prix par million de tokens. L'idée, c'est de calculer le coût par token utile sous contraintes de qualité. Si un modèle moins cher vous oblige à recommencer la tâche trois fois, il finit par coûter plus cher qu'un modèle haut de gamme.

Une piste intéressante pour réduire la facture est la mise en cache des prompts, qui peut réduire les coûts jusqu'à 90 % pour les instructions qui ne changent jamais. C'est le genre d'optimisation technique qui a un impact direct sur la marge d'une petite équipe.

Ce qu'il reste à surveiller (18 juin 2026)

On est encore dans une phase de découverte. Ce qu'on va surveiller de près dans les prochains mois, c'est la capacité des outils SaaS (comme vos CRM ou outils de gestion de projets) à rester transparents sur leur consommation. On craint que certains abonnements "illimités" ne cachent en fait des limites de tokens très strictes qui brideront l'efficacité de vos agents une fois le pilote terminé.

La tokenomics n'est pas une mode passagère, c'est la structure même de l'économie de l'IA. Si vous ne comptez pas vos tokens aujourd'hui, vous risquez de découvrir demain que votre usine à intelligence produit à perte.

Signaux à surveiller pour votre PME

Voici quelques questions à poser à votre équipe TI ou à vos fournisseurs pour valider si vous maîtrisez votre chaîne de valeur :

Visibilité : Est-ce qu'on est capables d'attribuer le coût des tokens par département ou par cas d'usage (ex : support vs marketing) ?
Efficacité : Est-ce qu'on utilise le modèle le plus cher pour des tâches simples de classification qui pourraient coûter 10 fois moins cher ?
Optimisation : Est-ce que nos développeurs utilisent la mise en cache pour les instructions répétitives ?
Garde-fous : Avons-nous des limites automatiques pour éviter qu'un agent n'entre dans une boucle infinie et ne vide notre budget en une nuit ?
Métrique de valeur : Mesurons-nous le coût par réponse acceptée plutôt que le coût par million de tokens ?