Coût des LLM : routage, open source et le rôle décisif du harnais

Deux faits tiennent difficilement ensemble. Le coût d’un token d’intelligence s’effondre d’année en année. Et dans le même temps, des entreprises parmi les mieux outillées du monde épuisent leur budget IA annuel en quatre mois. Ce paradoxe n’est pas une anomalie comptable. Il annonce la structure de coût qui attend toute organisation prenant l’IA au sérieux, et il désigne l’endroit précis où se jouera l’avantage concurrentiel des trois prochaines années.

Étude de cas

Uber a consommé son budget IA annuel en quatre mois

Selon les informations de The Information, relayées par Fortune et TechCrunch, Uber a épuisé l’enveloppe IA prévue pour l’ensemble de son exercice en un peu plus de quatre mois. En interne, la direction des opérations en serait venue à s’interroger ouvertement sur le retour de ces dépenses.

La réponse a pris la forme d’un plafond : de l’ordre de 1 500 dollars par employé et par mois pour chaque outil agentique. Un cas rapporté fait état d’un développeur ayant dépensé près de 4 200 dollars sur un seul long week-end de travail assisté. Dans le même temps, l’entreprise indique que près de 11 % de ses mises en production côté backend sont désormais écrites par des agents.

Le signal important tient en une phrase : une entreprise disciplinée, dotée d’ingénieurs de premier plan, a été prise de vitesse par un usage agentique qui transforme un coût unitaire dérisoire en facture stratégique.

La commoditisation de l’intelligence est bien réelle

Commençons par la bonne nouvelle, celle que les fournisseurs mettent en avant. À capacité égale, le prix de l’intelligence chute à une vitesse rarement observée dans l’histoire industrielle. Les analyses d’Andreessen Horowitz évoquent un facteur de l’ordre de 1 000 sur trois ans pour un niveau de performance donné, soit environ un ordre de grandeur par an. Les mesures d’Epoch AI convergent : pour atteindre un score fixé sur un même test, le coût recule d’un facteur qui va de 10 à 40 par an selon les domaines, davantage encore sur certaines tâches scientifiques.

Cette dynamique porte un nom dans le milieu : la LLMflation, par analogie inversée avec l’inflation. Chaque trimestre, le même service coûte moins cher. Un modèle ouvert de 2026 rend, pour quelques centimes, un service qui valait plusieurs dollars deux ans plus tôt.

Pour un dirigeant, la tentation est claire : si l’intelligence devient gratuite, pourquoi s’en préoccuper ? C’est précisément à cet endroit que le raisonnement dérape.

Chiffres clés

L’économie de l’IA, en ordres de grandeur

≈ 10x par an : la baisse du coût à capacité constante (Andreessen Horowitz).
5 à 30x : le surcroît de tokens qu’une tâche agentique consomme par rapport à une requête simple (Gartner, mars 2026).
Jusqu’à 85 % : l’économie possible en routant les requêtes simples vers des modèles moins chers, à qualité quasi préservée (RouteLLM).
100 à 200x : l’écart de prix au token, en entrée, entre un bon modèle open source et un modèle premium de dernière génération.

Le paradoxe : pourquoi votre facture explose quand même

Si le prix unitaire s’effondre, comment expliquer qu’Uber, et bien d’autres, voient leurs coûts déraper ? La réponse tient dans un changement de nature de l’usage.

Jusqu’en 2024, l’IA en entreprise se résumait le plus souvent à une requête suivie d’une réponse. Un utilisateur pose une question, le modèle répond. La consommation était linéaire et prévisible.

L’IA agentique fonctionne autrement. Un agent décompose une tâche, appelle des outils, lit des fichiers, observe des résultats, se corrige, recommence. Là où une requête classique consommait quelques milliers de tokens, une tâche agentique en consomme de cinq à trente fois plus selon Gartner. Chaque boucle de raisonnement, chaque relecture de contexte, chaque tentative avortée se paie.

Le résultat est une équation contre-intuitive. Le prix par token baisse d’environ 10x par an. Mais le nombre de tokens par tâche est multiplié par 5 à 30, et le nombre de tâches automatisées grimpe à mesure que les équipes découvrent ce que les agents savent faire. Le produit de ces trois termes peut très bien croître, même quand le premier s’effondre. C’est le paradoxe de Jevons appliqué à l’intelligence : plus une ressource devient bon marché, plus on en consomme, et la dépense totale augmente.

L’autre moteur du surcoût : l’incitation à surdimensionner

Le paradoxe de Jevons explique la mécanique. Reste une cause plus humaine, que les tableaux de bord ne montrent jamais. Dans la plupart des équipes, une réponse dégradée servie par un modèle bon marché retombe sur l’ingénieur qui l’a choisi. Une facture multipliée par trois, elle, se dilue dans un « l’IA coûte cher » que personne n’endosse à titre personnel. L’asymétrie est nette : le risque d’un modèle trop faible est visible et nominatif, le coût d’un modèle trop puissant est invisible et collectif.

Chacun surdimensionne donc par défaut. On envoie la tâche la plus banale au modèle le plus cher, par prudence. Aucun réglage technique ne corrige ce biais tant que l’organisation ne rend pas le coût aussi visible que la qualité. C’est une décision de management avant d’être un sujet d’ingénierie : instrumenter la dépense par équipe et par cas d’usage, puis cesser de traiter le surcoût comme une fatalité venue de l’extérieur.

Les modèles de tête, eux, se paieront très cher

Il existe un second effet, moins commenté et plus stratégique. La commoditisation ne touche pas tous les modèles de la même manière.

Ce qui devient gratuit, c’est l’intelligence d’hier. Le modèle qui définissait la frontière il y a dix-huit mois est aujourd’hui rattrapé par des versions ouvertes que l’on fait tourner pour quelques centimes. Mais la frontière, elle, se déplace. Et le modèle qui définit l’état de l’art à un instant donné conserve un pouvoir de prix considérable.

L’illustration la plus nette est le prix de sortie des modèles de raisonnement premium. À leur lancement, il s’est situé autour de 60 dollars le million de tokens, soit le tarif auquel se lançait GPT-3 plusieurs années plus tôt. La frontière se revend donc, à chaque génération, au prix fort d’hier. La courbe descendante de la LLMflation en dissimule une seconde : celle du premium, qui se reconstitue à chaque saut de capacité.

À cela s’ajoute un facteur que les acheteurs sous-estiment. Une partie des tarifs actuels est subventionnée. Comme le souligne Arize, les fournisseurs de pointe absorbent aujourd’hui une part du coût réel de l’inférence pour capter des parts de marché. Cette phase ne durera pas. Quand les subventions se resserreront, les organisations dont toute la chaîne de valeur dépend d’un seul modèle premium découvriront le vrai prix de leur dépendance.

Reprendre le contrôle : trois leviers concrets

Face à une facture qui grimpe, le premier réflexe consiste à prendre un modèle moins cher. C’est le plus petit levier, et souvent le mauvais. Ce qui pèse sur la facture, c’est la manière dont on enveloppe le modèle : combien d’appels, quel contexte à chaque appel, combien de tâches automatisées. La bonne nouvelle, c’est que cette structure se pilote. Trois leviers complémentaires permettent de diviser une facture IA par un facteur important, sans sacrifier la qualité perçue par l’utilisateur.

Un principe les précède : la dépense se concentre. Dans la plupart des déploiements, une petite fraction des usages, souvent autour de 20 %, porte l’essentiel du coût. L’utilisateur médian coûte peu. Optimiser au hasard revient à raboter partout ; viser le p99, ces requêtes les plus lourdes qui forment la longue traîne de la dépense, règle le problème là où il se trouve. Tout arbitrage commence donc par une mesure par cas d’usage qui isole ces 20 %.

1. Le routage : envoyer chaque tâche au bon modèle

La plupart des organisations commettent la même erreur : elles envoient toutes leurs requêtes au modèle le plus puissant, donc le plus cher, y compris pour reformuler un e-mail ou classer un ticket. Autant confier le tri du courrier à un associé-gérant.

Le routage consiste à diriger chaque requête vers le modèle le moins coûteux capable de la traiter correctement. Une tâche triviale part vers un petit modèle ouvert ; une tâche de raisonnement complexe part vers la frontière. Les travaux de RouteLLM, issus de Berkeley, montrent qu’un routeur bien calibré peut réduire les coûts jusqu’à 85 % tout en conservant environ 95 % de la qualité d’un modèle haut de gamme sur un usage réaliste. Des plateformes comme OpenRouter donnent accès à des dizaines de modèles derrière une seule interface, et des outils comme le mode Auto de Kilo Code choisissent automatiquement la cible à chaque appel. Le routage n’est plus un sujet de recherche, c’est une brique d’ingénierie disponible.

2. Les modèles open source : d’abord une question de maîtrise

Le deuxième levier consiste à internaliser une partie de l’intelligence. Les modèles ouverts, DeepSeek, Llama, Qwen, Mistral, ont refermé une grande partie de l’écart avec les modèles fermés sur la majorité des tâches courantes, et l’écart de prix reste béant : un bon modèle ouvert se facture en entrée à un tarif qui peut être cent à deux cents fois inférieur à celui d’un modèle premium de dernière génération.

Y voir seulement un modèle moins cher à substituer au précédent serait passer à côté de l’essentiel. Le bénéfice le plus durable de l’open source se situe ailleurs, dans la maîtrise. On héberge le modèle, on garde les données à l’intérieur du périmètre, on ne dépend d’aucune grille tarifaire externe, et l’on ne se verrouille sur personne. Pour une clinique, une banque ou un cabinet, ce point pèse autant que le coût, et c’est lui qui protège le jour où un fournisseur relève ses prix.

3. Le contexte : en envoyer moins, et ne le payer qu’une fois

Le troisième levier porte sur l’entrée, car c’est elle qui coûte, et on la repaie à chaque appel. La bonne réponse n’est pas de rétrécir le modèle, elle est de lui envoyer moins : ne charger que ce que la tâche touche réellement, plutôt que tout le contexte disponible. C’est exactement le rôle du résolveur décrit dans Anatomie d’un harnais IA, une table de routage qui sélectionne les bonnes sources au bon moment au lieu de noyer le modèle sous un corpus entier.

Le cache de contexte complète cette discipline. Dans un usage agentique, une part importante de l’entrée, les instructions système, la documentation, l’historique, revient à chaque appel. Le cache permet de ne facturer qu’une fois cette portion stable, puis de la réutiliser à coût réduit. Sur des boucles longues, l’économie est immédiate et ne demande aucun compromis sur la qualité.

Qui paie ? La tarification par siège se fissure

Reste une question que les directions tranchent trop tard : qui supporte le coût, et comment on le facture. Le logiciel s’est longtemps vendu par siège, un prix fixe par utilisateur et par mois. Ce modèle suppose une consommation stable et prévisible. L’usage agentique fait voler cette hypothèse en éclats, puisqu’un même siège peut coûter quelques euros un mois et plusieurs milliers le suivant.

Le plafond posé par Uber, de l’ordre de 1 500 dollars par employé et par mois, traduit brutalement ce basculement : quand le coût variable dépasse le prix du siège, l’éditeur comme l’entreprise doivent revoir leur modèle. Pour un dirigeant, trancher « qui paie » est un arbitrage de tarification à part entière, qui décide directement de la marge. Le reporter revient à laisser la facture décider à sa place.

Le piège silencieux : les coûts de bascule

Réduire sa facture est un exercice de court terme. Le vrai enjeu stratégique se situe ailleurs, dans ce que les économistes appellent les coûts de bascule, les switching costs.

Chaque fournisseur pousse ses formats propriétaires : sa manière d’appeler des outils, ses API d’agents, ses conventions de prompt. Plus une organisation construit profond sur un modèle donné, plus le coût de le quitter augmente. Le jour où le fournisseur relève ses tarifs ou coupe ses subventions, l’entreprise verrouillée n’a plus de levier de négociation.

L’ironie est cruelle. La commoditisation devrait donner tout le pouvoir à l’acheteur, puisque les modèles deviennent interchangeables et bon marché. Elle ne le fait que pour les organisations restées mobiles. Celles qui ont coulé leur logique métier dans les spécificités d’un fournisseur subissent le pire des deux mondes : elles ne profitent pas de la baisse des prix et paient le premium sans pouvoir en sortir. La parade tient en un principe simple : garder le modèle interchangeable. L’intelligence doit rester un composant que l’on remplace en une journée, jamais une fondation que l’on coule dans le béton.

La thèse : l’avantage se déplace vers le harnais

Rassemblons les fils. L’intelligence brute se commoditise et tend vers la gratuité. Les modèles de tête, eux, se vendront de plus en plus cher, d’abord subventionnés puis dé-subventionnés. L’usage agentique fait exploser les volumes. Et le verrouillage guette ceux qui construisent trop près d’un fournisseur.

Dans ce paysage, une seule question mérite l’attention d’un dirigeant : qu’est-ce qui reste rare quand l’intelligence devient abondante ?

La réponse est le harnais. Cette fine couche logicielle qui entoure le modèle, décide quoi lui envoyer et vers quel modèle, charge le bon contexte au bon moment, sépare le jugement de l’exécution et impose les garde-fous. Nous lui avons consacré une analyse détaillée dans Anatomie d’un harnais IA.

Définition

Le harnais, en une phrase

Le harnais est la couche logicielle qui enveloppe un ou plusieurs modèles : elle décide quoi charger dans le contexte, vers quel modèle router chaque tâche, quels outils ouvrir et où placer les garde-fous. Le modèle est le pilote. Le harnais est la tour de contrôle.

Le harnais est l’endroit exact où se logent les trois leviers de coût. C’est lui qui route les requêtes vers le bon modèle. C’est lui qui bascule d’un fournisseur à un autre sans réécrire la logique métier. C’est lui qui met le contexte en cache, qui compresse, qui décide de ne pas appeler la frontière quand un petit modèle suffit. Un harnais bien conçu transforme le choix du modèle en simple paramètre.

Plus l’intelligence se commoditise, plus la valeur migre vers ce qui l’orchestre. Quand tout le monde accède aux mêmes modèles pour quelques centimes, l’avantage n’appartient plus à celui qui détient le meilleur modèle. Il appartient à celui qui détient le meilleur harnais : celui qui obtient plus de qualité par euro dépensé, qui reste libre de changer de fournisseur, et qui absorbe le prochain saut de capacité comme une simple mise à jour plutôt que comme une refonte.

Ce qu’un dirigeant devrait faire dès maintenant

Mesurer avant d’optimiser. Instrumentez votre consommation par cas d’usage, par équipe et par modèle, puis traquez le p99 : ces 20 % d’usages les plus lourds où se loge l’essentiel de la dépense.
Router systématiquement. Réservez la frontière aux tâches qui la justifient. Le reste doit partir vers des modèles ouverts ou légers.
Trancher qui paie. Vérifiez que votre modèle de tarification tient face à un coût au token variable. Le prix par siège se fissure dès que l’usage agentique s’installe.
Rester mobile. Interdisez-vous toute architecture qui rendrait le changement de modèle coûteux. Le modèle est un paramètre, pas une fondation.
Investir dans le harnais. C’est le seul actif de cette liste qui prend de la valeur avec le temps, pendant que les modèles, eux, se déprécient chaque trimestre.

L’intelligence deviendra une commodité. Le jugement sur la manière de l’orchestrer restera rare, et c’est là que se construira, ou se perdra, l’avantage.

Acadewie conçoit des harnais IA pour les organisations qui veulent industrialiser leur usage de l’IA sans se verrouiller sur un fournisseur. Pour en discuter : hello@acadewie.com