Une calculatrice solaire le fait pour zéro. Un LLM hébergé allume plusieurs milliers de jetons pour arriver à la même réponse.
Une calculatrice à énergie solaire additionne 10 + 10 pour rien. La lumière frappe la bande photovoltaïque, quelques portes logiques basculent, et l’écran affiche 20. Aucun coût par utilisation, aucun abonnement, aucun aller-retour réseau, aucune télémétrie. Envoyez la même question à un grand modèle de langage hébergé et le modèle n’additionne pas vraiment — il génère une chaîne de texte probable un jeton à la fois, et chaque jeton est facturé. Le tableau ci-dessous est ce que 10 + 10 coûte réellement quand la réponse vient d’un modèle.
| # | Étape | Jetons en entrée | Jetons en sortie |
|---|---|---|---|
| 1 | Chargement du prompt système de la plateforme | ~2 500 | — |
| 2 | Chargement des définitions d’outils, compétences et connecteurs | ~3 000 | — |
| 3 | Chargement du contexte de conversation (début du tour) | ~80 | — |
| 4 | Tokenisation de la requête « what is 10 + 10 » | 7 | — |
| 5 | Passe avant à travers tous les paramètres du modèle pour produire le premier jeton de sortie | (rejoue l’entrée ci-dessus) | — |
| 6 | Émission de jetons de raisonnement / « réflexion » internes | — | ~120 |
| 7 | Génération du jeton de réponse : « 20 » | — | 1 |
| 8 | Détokenisation, diffusion, persistance, télémétrie, facturation | — | — |
| Total | ~5 587 | ~121 |
À un tarif de palier frontière actuel d’environ 15 $ par million de jetons en entrée et 75 $ par million de jetons en sortie, cette simple addition coûte environ 9,3 cents. La calculatrice coûte zéro. Dix employés interrogeant le modèle dix fois par heure pendant une journée de huit heures, c’est environ 74 $ par jour pour reproduire ce qu’un morceau de plastique à 4 $ datant de 1985 fait silencieusement sur un rebord de fenêtre. Le modèle fait un travail extraordinaire ailleurs. L’addition n’en fait pas partie.