Compteur de Tokens — Comptez les Tokens GPT-4o et GPT-4 avec Précision (Gratuit)
Visualisation des tokens
Les couleurs identifient les tokens adjacents (sans signification sémantique)Saisissez du texte ci-dessus pour voir la visualisation des tokens.
Outils externes associés
Certains liens sont des liens d'affiliation.
Outils associés
Ce compteur de tokens gratuit utilise un vrai tokeniseur (BPE d'OpenAI) pour compter avec précision les tokens de GPT-4o, GPT-4 et GPT-3.5. Collez n'importe quel texte pour voir le décompte exact de tokens, une visualisation en couleur de la façon dont le texte est découpé en tokens, ainsi que le nombre de caractères et de mots — le tout en temps réel. Passez d'un modèle à l'autre (GPT-4o=o200k_base, GPT-4=cl100k_base) pour comparer. Tout fonctionne dans votre navigateur — votre texte n'est jamais envoyé à un serveur.
Comment l'utiliser
- Sélectionnez un modèle (GPT-4o, GPT-4, GPT-3.5) — cela définit l'encodage du tokeniseur.
- Collez ou saisissez votre prompt dans la zone de texte. Le décompte de tokens et de caractères se met à jour en temps réel.
- La visualisation en couleur montre comment le texte est découpé en tokens. Chaque puce est un token. Les espaces apparaissent comme · et les sauts de ligne comme ↵.
- Utilisez 'Effacer' pour réinitialiser ou 'Copier' pour copier le texte.
- Optionnellement, développez 'Estimation du coût' et saisissez le prix par 1 000 tokens pour calculer un coût API approximatif.
- Sans installation, sans inscription — votre texte n'est jamais envoyé. Le tokeniseur s'exécute entièrement dans votre navigateur.
Qu'est-ce qu'un token ?
Un token est l'unité de base que les LLM comme GPT utilisent pour traiter le texte. Les mots sont divisés en sous-mots, donc un seul mot peut être un ou plusieurs tokens. En anglais, un token correspond en moyenne à environ 4 caractères ou 0,75 mots — mais ce n'est qu'un guide approximatif. Le décompte réel dépend du texte spécifique, de la langue et de l'encodage. Cet outil utilise le vrai tokeniseur pour vous donner le décompte exact, pas une estimation.
Encodages de modèles : cl100k_base et o200k_base
Les différents modèles GPT utilisent différents encodages de tokeniseur. GPT-4 et GPT-3.5 utilisent cl100k_base, tandis que GPT-4o et GPT-4o mini utilisent le plus récent o200k_base, plus efficace pour le texte multilingue. Le même texte peut avoir un décompte de tokens différent selon l'encodage — utilisez le sélecteur de modèle pour comparer. Note : cet outil couvre uniquement les modèles OpenAI GPT. Claude, Gemini et autres modèles utilisent des tokeniseurs différents, donc leurs décomptes de tokens différeront.
Comment lire la visualisation des tokens
Chaque puce colorée représente exactement un token. Les tokens adjacents alternent les couleurs pour que vous puissiez voir où l'un se termine et le suivant commence. Les espaces à l'intérieur d'un token sont affichés comme · et les sauts de ligne comme ↵. Si votre texte produit plus de 2 000 tokens, seules les 2 000 premières puces sont dessinées, mais le décompte total affiché est toujours exact.
Caractères, mots et tokens
Le décompte de caractères est le nombre de points de code Unicode (emoji et caractères CJK comptent chacun comme un). Le décompte de mots est le nombre de séquences de lettres ou de chiffres — utile uniquement pour les langues séparées par des espaces. Le décompte de tokens est différent des deux : c'est le nombre réel de tokens BPE que voit le LLM et ce qui détermine le coût de l'API et l'utilisation de la fenêtre de contexte.
Cas d'usage
Gestion des prompts et limites de fenêtre de contexte
Collez votre prompt complet pour vérifier s'il tient dans la fenêtre de contexte du modèle (par exemple, 128 000 tokens pour GPT-4o). Si vous êtes proche de la limite, réduisez votre prompt jusqu'à ce que le décompte soit confortablement en dessous.
Estimation des coûts d'API
Le coût de l'API est facturé par token. Saisissez votre texte, notez le décompte de tokens et multipliez par le prix du token d'entrée pour obtenir une estimation approximative du coût. Développez le panneau 'Estimation du coût' et saisissez le prix par 1 000 tokens. Le prix réel dépend du modèle, si les tokens sont en entrée ou en sortie et du prix actuel d'OpenAI — vérifiez toujours sur la page de tarification officielle.
Comparaison de l'efficacité des tokens entre les langues
Le même sens exprimé en japonais, en chinois ou en coréen utilise généralement plus de tokens qu'en anglais, car les scripts non latins sont encodés moins compactement par BPE. L'encodage o200k_base de GPT-4o améliore l'efficacité multilingue par rapport à cl100k_base — essayez de changer de modèle pour comparer la différence avec votre texte.
Questions fréquentes
- Le décompte de tokens est-il précis ?
- Oui, pour les modèles pris en charge. Cet outil utilise le même vrai tokeniseur (BPE) que les modèles GPT-4o, GPT-4 et GPT-3.5 d'OpenAI utilisent en interne, donc le décompte correspond à ce que facture l'API. Ce n'est pas une approximation comme 'caractères divisés par 4'.
- Pourquoi le décompte change-t-il lors du changement de modèle ?
- GPT-4o et GPT-4o mini utilisent l'encodage o200k_base, tandis que GPT-4 et GPT-3.5 utilisent cl100k_base. Ces encodages ont des vocabulaires différents, donc le même texte est découpé différemment et peut produire un nombre différent de tokens.
- Puis-je compter les tokens pour Claude ou Gemini ?
- Non. Cet outil ne prend en charge que les modèles OpenAI GPT (GPT-4o, GPT-4, GPT-3.5). Claude, Gemini et autres modèles utilisent leurs propres tokeniseurs propriétaires, donc les décomptes ici ne s'appliquent pas à eux.
- Mon texte est-il envoyé à un serveur ?
- Non. La bibliothèque du tokeniseur est incluse dans la page et s'exécute entièrement dans votre navigateur. Votre texte ne quitte jamais votre appareil — rien n'est envoyé ni stocké.
- Pourquoi le japonais, le chinois et le coréen utilisent-ils plus de tokens ?
- Les tokeniseurs BPE divisent le texte en morceaux de sous-mots. Les scripts à caractères latins sont encodés plus compactement, tandis que les caractères CJK correspondent généralement à plus de tokens par caractère. L'encodage o200k_base plus récent (GPT-4o) améliore cela par rapport à cl100k_base.
- Puis-je estimer mon coût d'API ici ?
- Vous pouvez obtenir une estimation approximative. Développez la section 'Estimation du coût' et saisissez le prix du token d'entrée en dollars par 1 000 tokens. L'outil multiplie le décompte de tokens par ce prix. Le coût réel dépend du modèle spécifique, si les tokens sont en entrée ou en sortie et du prix actuel d'OpenAI — vérifiez toujours sur la page de tarification officielle.
- Ai-je besoin d'une clé API ?
- Non. Le tokeniseur s'exécute entièrement dans votre navigateur en utilisant les données du tokeniseur incluses. Aucun appel à l'API OpenAI n'est effectué.