トークン数 カウント|GPT-4o・GPT-4を正確に計算&分割を可視化(無料)
トークン分割の可視化
色は隣のトークンを見分けるためで意味はありませんテキストを入力するとトークンの分割が表示されます。
関連する外部ツール
一部のリンクはアフィリエイトリンクを含みます。
関連ツール
このトークン数カウンターは、本物のトークナイザ(OpenAI BPE)を使ってプロンプトやテキストのトークン数を正確に計算します。GPT-4o・GPT-4・GPT-3.5 に対応。テキストを貼り付けると、正確なトークン数・色分けによるトークン分割の可視化・文字数・単語数をリアルタイムで確認できます。モデルを切り替えると(GPT-4o=o200k_base、GPT-4=cl100k_base)トークン数を比較できます。すべてブラウザ内で完結し、入力テキストはサーバーに送信されません。
使い方
- モデル(GPT-4o・GPT-4・GPT-3.5)を選択するとエンコーディングが自動で切り替わります。
- テキストエリアにプロンプトを貼り付けると、トークン数・文字数がリアルタイムで更新されます。
- 下部の色分け可視化で、テキストがどうトークンに分割されるかが一目で分かります。チップ1つ=1トークン。スペースは「·」、改行は「↵」で表示。
- 「クリア」でリセット、「コピー」で入力テキストをコピーできます。
- 「コスト概算」を展開し、1Kトークンあたりの単価を入力すると概算APIコストが計算されます(目安です)。
- インストール不要・登録不要。テキストはブラウザ外に送信されません。
トークンとは?
トークンは、GPT のような LLM がテキストを処理するときの最小単位です。単語をサブワードに分割することが多く、1単語が1〜複数トークンになります。英語では目安として「1トークン ≒ 4文字 / 0.75単語」とよく言われますが、これはあくまで概算です。実際のトークン数はテキストの内容・言語・エンコーディングによって変わります。本ツールは本物のトークナイザを使うため、概算ではなく正確なカウントが得られます。
モデルとエンコーディング(cl100k_base・o200k_base)
GPT モデルによってトークナイザ(エンコーディング)が異なります。GPT-4・GPT-3.5 は cl100k_base、GPT-4o・GPT-4o mini は新しい o200k_base を使用します。o200k_base は多言語テキストのトークン効率が改善されており、同じ日本語テキストでも GPT-4o の方がトークン数が少なくなる場合があります。モデルを切り替えて比較してみてください。なお、本ツールは OpenAI GPT 系のエンコーディングにのみ対応しています。Claude・Gemini 等は独自のトークナイザを使うため、ここの数値は一致しません。
可視化の見方
各色のチップが1つのトークンを表します。隣り合うトークンが色で区別できます(色に意味はありません)。トークン内のスペースは「·」、改行は「↵」で表示され、空白もトークンとして扱われることが視覚的に確認できます。2,000 トークンを超える場合は先頭 2,000 チップのみを表示しますが、総トークン数の表示は常に正確です。
文字数・単語数とトークン数の違い
文字数はUnicode コードポイント数(絵文字や CJK 文字は1文字)、単語数は文字・数字の連続の個数(CJK では参考値)です。トークン数はこれらとは異なり、LLM が実際に処理する BPE トークンの数です。APIコストやコンテキスト上限もトークン数基準で決まります。
活用例
プロンプトのトークン管理・コンテキスト上限
プロンプト全文を貼り付けて、モデルのコンテキスト上限(例: GPT-4o は 128,000 トークン)に収まるかを事前確認できます。上限に近い場合は不要な部分を削るなど調整の目安にしてください。上限値はモデルの改定で変わる目安です。
API コストの見積もり(目安)
API は入力トークン数 × 単価で課金されます。「コスト概算」パネルを展開し、1Kトークンあたりの入力単価($)を入力すると概算コストを計算できます。単価はモデル・入出力・時期で変わるため、最新料金は OpenAI 公式料金ページで必ず確認してください。
言語によるトークン効率の違い
日本語・中国語・韓国語などは英語に比べてトークンを多く消費しやすい傾向があります。これは BPE の分割の仕組み上、非ラテン文字のエンコード効率が低いためです。GPT-4o の o200k_base は cl100k_base より多言語効率が改善されています。モデルを切り替えて同じ日本語テキストのトークン数を比較すると、その違いが可視化で確認できます。
よくある質問
- トークン数は正確ですか?
- はい、対応モデルに対しては正確です。本ツールは OpenAI の GPT-4o・GPT-4・GPT-3.5 が内部で使うのと同じ本物のトークナイザ(BPE)を使っています。「文字数÷4」などの概算ではありません。
- モデルを切り替えるとトークン数が変わるのはなぜ?
- GPT-4o 系は o200k_base、GPT-4・GPT-3.5 は cl100k_base というエンコーディングを使っており、語彙が異なるため同じテキストでも分割結果が変わりトークン数が変わります。モデルセレクタで切り替えて比較できます。
- Claude や Gemini のトークン数も分かりますか?
- いいえ。本ツールは OpenAI GPT 系のエンコーディング(o200k_base・cl100k_base)にのみ対応しています。Claude・Gemini 等は独自のトークナイザを使うため、ここの数値はそれらには一致しません。
- 入力したテキストは送信・保存されますか?
- いいえ。トークナイザのデータはページにバンドルされており、すべてブラウザ内で処理されます。テキストはサーバーに送信・保存されません。
- 日本語・中国語・韓国語はトークンが多いのはなぜ?
- BPE のサブワード分割の仕組み上、非ラテン文字はラテン文字より多くのトークンを消費しやすい特性があります。GPT-4o の o200k_base は cl100k_base より多言語効率が改善されており、モデルを切り替えて比較することで違いが確認できます。
- API のコストはここで分かりますか?
- 概算の目安として計算できます。「コスト概算」パネルを開き、1Kトークンあたりの入力単価($)を入力してください。ただし、実際の料金は入出力別・モデルのバージョン・OpenAI の最新料金によって変わります。公式料金ページで最新情報を確認してください。
- API キーは必要ですか?
- 不要です。トークナイザはブラウザ内で完結して動作し、OpenAI の API を呼び出しません。