Claude API pricing : tarifs Opus, Sonnet, Haiku 2026

▶️ En Bref
Le Claude API pricing repose sur trois gammes en 2026 : Haiku 4.5 à 1 $/Mtok input, Sonnet 4.6 à 3 $/Mtok input et Opus 4.7 à 15 $/Mtok input. Les tokens de sortie coûtent 5 fois plus cher que ceux d’entrée sur chaque modèle. Face à GPT-5 (1,25 $) et Gemini 2.5 Pro (1,25 $), Claude reste plus cher en entrée mais imbattable sur le raisonnement long et le tool use. Le prompt caching divise la facture par 10 sur les usages répétitifs, le Batch API la divise par 2 sur l’asynchrone. Ce guide chiffre tout, simulateur compris.
Sommaire
Tarifs Claude API par modèle en 2026
Anthropic facture l’API au million de tokens consommés, sans abonnement mensuel ni frais fixes. Cinq modèles cohabitent en 2026 : trois actifs en gamme principale et deux versions précédentes encore disponibles pour la compatibilité.
Les prix s’expriment en dollars américains pour un million de tokens, désigné par l’unité Mtok dans la documentation officielle. Une page A4 dense représente environ 750 tokens, soit 1333 pages par million.
| Modèle | Input ($/Mtok) | Output ($/Mtok) | Ratio out/in | Contexte |
|---|---|---|---|---|
| Opus 4.7 | 15 $ | 75 $ | x5 | 200k tokens |
| Sonnet 4.6 | 3 $ | 15 $ | x5 | 200k tokens |
| Haiku 4.5 | 1 $ | 5 $ | x5 | 200k tokens |
| Sonnet 3.7 | 3 $ | 15 $ | x5 | 200k tokens |
| Haiku 3.5 | 0,80 $ | 4 $ | x5 | 200k tokens |
Un détail structurel saute aux yeux : le ratio output/input vaut 5 sur toute la gamme. Cette règle simplifie les projections de budget. Si vos sorties représentent 20% de votre volume total, elles concentreront la moitié de la facture.
Les écarts entre gammes sont massifs. Opus coûte 15 fois plus cher que Haiku en entrée. Un même prompt traité par les deux modèles n’aura pas le même impact comptable, même si le résultat reste exploitable dans les deux cas. Pour les détails techniques sur les endpoints et l’authentification, le guide complet de l’API Claude rentre dans le détail des requêtes.
Comprendre la facturation au token
Un token représente une unité de découpage du texte par le tokenizer du modèle. En français, on compte en moyenne 3,5 caractères par token contre 4 en anglais. Cette différence joue : un prompt traduit du français vers l’anglais consomme environ 15% de tokens en moins.
La facturation distingue strictement les tokens d’entrée et de sortie. Les tokens d’entrée incluent votre prompt système, l’historique conversationnel et le message utilisateur courant. Les tokens de sortie comptent uniquement la réponse générée par le modèle.
📖 Définition
Le cache read facture 10% du tarif input. Le cache write facture 125% du tarif input pour 5 minutes, 200% pour 1 heure. Ces deux lignes apparaissent séparées dans l’objet usage renvoyé par chaque réponse API, indispensable pour surveiller votre taux de hit.
La fenêtre de contexte de 200 000 tokens pose une question budgétaire concrète. Un appel qui mobilise tout le contexte sur Opus coûte 3 $ rien qu’en entrée, avant même la réponse. Sur Haiku, le même appel descend à 20 centimes. Cet écart structure le choix du modèle bien plus que les benchmarks.
L’endpoint /v1/messages/count_tokens aide à anticiper la facture avant l’envoi. Gratuit et instantané, il évite les mauvaises surprises sur les gros prompts. Les SDK officiels Python et TypeScript exposent une méthode count_tokens() qui appelle ce même endpoint en une ligne.
Simulateur de coût par cas d’usage
Les chiffres bruts en dollars par million de tokens parlent peu. Voici cinq scénarios concrets chiffrés sur la base des tarifs 2026, par tranche d’un million de tokens traités, avec hypothèses de répartition input/output adaptées à chaque cas.
| Cas d’usage | Répartition | Haiku 4.5 | Sonnet 4.6 | Opus 4.7 |
|---|---|---|---|---|
| Classification tickets | 90% in / 10% out | 1,40 $ | 4,20 $ | 21 $ |
| Chatbot conversationnel | 70% in / 30% out | 2,20 $ | 6,60 $ | 33 $ |
| Rédaction articles SEO | 30% in / 70% out | 3,80 $ | 11,40 $ | 57 $ |
| Agent autonome long | 50% in / 50% out | 3 $ | 9 $ | 45 $ |
| Extraction données PDF | 95% in / 5% out | 1,20 $ | 3,60 $ | 18 $ |
Pour un projet typique de chatbot e-commerce traitant 100 000 messages par mois avec 2000 tokens par échange, le volume mensuel atteint 200 millions de tokens. Sur Haiku 4.5, la facture grimpe à 440 $/mois. Sur Sonnet 4.6, à 1320 $/mois. Sur Opus 4.7, à 6600 $/mois.
📌 À retenir
Plus la part d’output augmente, plus le coût total grimpe vite. Une mission de rédaction longue coûte 70% de plus qu’une classification au même volume nominal. Demandez toujours des réponses concises dans le prompt système et fixez max_tokens au plus juste.
Le bon réflexe consiste à prototyper sur Haiku puis remonter en gamme seulement si la qualité ne suffit pas. Beaucoup d’équipes paient Opus par confort alors qu’un Sonnet 4.6 bien prompté résout la même tâche pour cinq fois moins cher.
Claude vs GPT-5 vs Gemini : comparatif prix
Le marché des LLM API se concentre sur trois acteurs en 2026 : Anthropic avec Claude, OpenAI avec GPT-5 et Google avec Gemini 2.5. Chacun propose une gamme à trois étages calée sur l’opposition raisonnement / équilibre / volume.
| Modèle | Input ($/Mtok) | Output ($/Mtok) | Contexte | Point fort |
|---|---|---|---|---|
| Claude Opus 4.7 | 15 $ | 75 $ | 200k | Raisonnement long, agentique |
| GPT-5 | 1,25 $ | 10 $ | 400k | Polyvalence, multimodal |
| Gemini 2.5 Pro | 1,25 $ | 10 $ | 2M | Très long contexte, vidéo |
| Claude Sonnet 4.6 | 3 $ | 15 $ | 200k | Code, tool use fiable |
| GPT-5 mini | 0,25 $ | 2 $ | 400k | Latence basse, prix mini |
| Gemini 2.5 Flash | 0,30 $ | 2,50 $ | 1M | Volume massif, multimodal |
| Claude Haiku 4.5 | 1 $ | 5 $ | 200k | Classification rapide |
Le constat brut : Claude est plus cher que ses concurrents directs à gamme équivalente. Opus 4.7 facture 12 fois plus d’input que GPT-5, Haiku 4.5 facture 4 fois plus que GPT-5 mini. Cet écart se justifie sur des critères qualitatifs précis.
Claude domine sur trois terrains en 2026. Le tool use reste plus stable, avec moins d’hallucinations dans les arguments des fonctions appelées. Le code longue durée profite à Sonnet 4.6, raison pour laquelle Claude Code bat les alternatives sur les sessions de plusieurs heures. Le raisonnement multi-étapes reste un avantage Opus sur l’analyse juridique ou scientifique.
💡 Conseil d’expert
N’optimisez pas le choix d’API uniquement sur le prix affiché. Le coût total réel dépend du nombre de retries nécessaires pour obtenir une bonne réponse. Un modèle 3 fois plus cher mais qui réussit du premier coup revient moins cher qu’un modèle bon marché relancé trois fois. Benchmarkez sur vos vrais prompts avant de trancher.
Pour les volumes massifs sur tâches simples, Gemini 2.5 Flash et GPT-5 mini gagnent sur le pur ratio prix/performance. Pour les applications agentiques complexes, Claude conserve une longueur d’avance qui justifie le surcoût.
Réduire la facture avec le prompt caching
Le prompt caching est l’optimisation la plus rentable du Claude API pricing. Activé via le paramètre cache_control, il facture les portions répétitives à 10% du tarif input lors des lectures suivantes.
Le mécanisme accepte deux durées : 5 minutes (gratuit en écriture) ou 1 heure (écriture facturée 2x le tarif input). Le seuil minimum est de 1024 tokens pour Sonnet et Opus, 2048 pour Haiku. En-dessous, l’API refuse silencieusement de cacher.
L’économie réelle dépend du taux de hit cache. Un chatbot avec prompt système stable de 5000 tokens servi à 1000 utilisateurs simultanés atteint facilement 90% de hits. La facture d’input chute de 80 à 90% sans aucun changement de logique applicative.
💡 Astuce
Architecturez vos prompts en trois couches stables avant variable : instructions système, base de connaissances, exemples few-shot avec cache_control, puis la question utilisateur en dernier sans cache. Cette structure maximise le hit cache et divise la facture par 5 à 10 sur les usages haute fréquence.
Surveillez l’objet usage de chaque réponse. Les champs cache_creation_input_tokens et cache_read_input_tokens séparent ce qui a été créé de ce qui a été lu depuis le cache. Un dashboard interne sur ces deux métriques révèle vite les opportunités d’optimisation.
Batch API et remises volumes
Le Batch API via l’endpoint /v1/messages/batches applique une remise automatique de 50% sur tous les modèles. La contrepartie : les réponses arrivent sous 24 heures maximum, sans garantie de délai précis.
Ce mode convient aux usages où la latence n’a aucune importance. Génération de descriptions produit, enrichissement de catalogues, traduction de bases documentaires, nettoyage de données : ces traitements supportent l’asynchrone et profitent directement du tarif divisé.
| Mode | Remise | Délai | Cas idéal |
|---|---|---|---|
| API standard | 0% | Temps réel | Chatbot, agent |
| Prompt caching | -90% input | Temps réel | Prompts répétitifs |
| Batch API | -50% total | 24h max | Traitement masse |
| Batch + caching | -55 à -70% | 24h max | Rédaction asynchrone |
Cumuler Batch et caching reste possible. Sur une mission de rédaction de 10 000 fiches produit avec prompt système stable, la combinaison fait tomber la facture théorique de 1140 $ à environ 350 $ sur Sonnet 4.6. Le ROI s’obtient en quelques heures de configuration.
Au-delà des remises techniques, Anthropic propose des tarifs entreprise négociés à partir de volumes mensuels supérieurs à 100 000 $. Le contact se fait via le formulaire commercial sur anthropic.com avec engagement annuel.
Choisir le bon modèle selon le budget
La décision se prend sur quatre critères simples : le volume mensuel attendu, la complexité de la tâche, la tolérance à la latence et la marge brute du produit final. Aucun modèle n’est universellement bon.
Pour un MVP en phase de découverte, Haiku 4.5 reste le bon départ. Coût minuscule, latence basse, qualité suffisante pour valider l’adéquation produit-marché. Si la qualité décroche, montez en gamme par étapes sur les chemins critiques uniquement.
Pour une application en production stable, Sonnet 4.6 domine sur le ratio qualité/prix. Il couvre 90% des cas d’usage avec une qualité quasi identique à Opus pour cinq fois moins cher. C’est aussi le modèle par défaut de Claude Code en plan Pro à 20 $/mois.
Pour les agents autonomes complexes ou les analyses critiques, Opus 4.7 justifie son surcoût. Le différentiel de raisonnement se voit sur les tâches de plus de 10 étapes ou les corpus juridiques denses. Sur du contenu marketing standard, l’écart avec Sonnet ne se voit pas.
✅ Ce qu’il faut retenir
- Trois modèles principaux en 2026 : Opus 4.7 à 15 $, Sonnet 4.6 à 3 $, Haiku 4.5 à 1 $ en input par Mtok
- Output toujours 5 fois plus cher que l’input sur toute la gamme Claude
- Claude reste 5 à 12x plus cher que GPT-5 et Gemini 2.5 en input, justifié par le tool use et le raisonnement long
- Prompt caching divise la facture par 5 à 10 sur les usages répétitifs sans changer de modèle
- Batch API applique -50% automatique pour les traitements asynchrones tolérant 24h de délai
- Commencez sur Haiku, montez en Sonnet quand la qualité décroche, réservez Opus aux 10% de cas critiques
Une stratégie hybride donne souvent le meilleur ratio. Routez les requêtes simples vers Haiku, les requêtes standard vers Sonnet, et n’escaladez vers Opus que si un score de confiance interne descend sous un seuil. Cette architecture en cascade réduit la facture de 60 à 80% sans perte de qualité perceptible. Pour comprendre comment ces choix s’intègrent dans une stack agentique complète, le pilier IA agentique détaille les patterns de routage multi-modèles.
FAQ — Claude API Pricing
Quel est le modèle Claude le moins cher en 2026 ?
Claude Haiku 3.5 reste le moins cher à 0,80 $/Mtok en entrée et 4 $/Mtok en sortie. La version 4.5 plus récente coûte 1 $/Mtok mais offre un saut qualitatif majeur pour 25% de surcoût. Pour les nouveaux projets, Haiku 4.5 reste le meilleur compromis.
Y a-t-il un abonnement mensuel pour l’API Claude ?
Non, l’API Claude facture uniquement à l’usage. Aucun frais fixe, aucun engagement. Vous payez les tokens consommés sur facture mensuelle ou prélèvement automatique. Les comptes entreprise négocient des engagements annuels à partir de 100 000 $/an avec tarifs préférentiels.
Comment estimer le coût mensuel avant de lancer un projet ?
Utilisez la formule (tokens_input × prix_in + tokens_output × prix_out) / 1 000 000. Multipliez par le nombre de requêtes mensuelles attendues. L’endpoint count_tokens mesure précisément un prompt type avant d’extrapoler. Prévoyez 20% de marge pour les retries et les pics.
Le prompt caching fonctionne-t-il sur tous les modèles ?
Oui, depuis 2026 le caching est disponible sur Opus 4.7, Sonnet 4.6, Haiku 4.5 ainsi que les versions précédentes Sonnet 3.7 et Haiku 3.5. Seul le seuil minimum diffère : 1024 tokens pour Sonnet et Opus, 2048 pour Haiku.
Quelle est la différence de prix entre API directe et AWS Bedrock ?
Les tarifs sont identiques sur AWS Bedrock, Google Vertex AI et l’API Anthropic directe. Vous payez le même prix par token quel que soit le canal d’accès. La différence joue uniquement sur la facturation (consolidée dans votre compte cloud) et les fonctionnalités annexes comme les VPC privés ou les certifications de conformité.
Envie d’aller plus loin ?
Découvrez nos formations complètes avec accompagnement personnalisé.
Voir la formation%20(1).png)