256 Tools

토큰 수 계산기 — GPT-4o·GPT-4 토큰을 정확히 계산하고 분할 시각화 (무료)

인코딩: o200k_base
0
토큰 수
0
글자 수
0
단어 수
글자/토큰

토큰 분할 시각화

색상은 인접한 토큰을 구분하기 위한 것으로 의미는 없습니다

위에 텍스트를 입력하면 토큰 시각화가 표시됩니다.

관련 외부 도구

일부 링크는 제휴 링크입니다.

관련 도구

이 무료 토큰 수 계산기는 실제 OpenAI BPE 토크나이저를 사용하여 GPT-4o, GPT-4, GPT-3.5의 토큰 수를 정확하게 계산합니다. 텍스트를 붙여넣으면 정확한 토큰 수, 텍스트가 토큰으로 어떻게 분할되는지 색상으로 시각화한 결과, 글자 수와 단어 수를 실시간으로 확인할 수 있습니다. 모델을 전환하여(GPT-4o=o200k_base, GPT-4=cl100k_base) 비교할 수 있습니다. 모든 처리는 브라우저에서 이루어지며, 텍스트는 서버로 전송되지 않습니다.

사용 방법

  1. 모델(GPT-4o, GPT-4, GPT-3.5)을 선택하면 인코딩이 자동으로 설정됩니다.
  2. 텍스트 영역에 프롬프트를 붙여넣거나 입력하면 토큰 수와 글자 수가 실시간으로 업데이트됩니다.
  3. 아래 색상 시각화에서 텍스트가 어떻게 토큰으로 분할되는지 확인할 수 있습니다. 각 칩 하나 = 토큰 하나. 공백은 「·」, 줄바꿈은 「↵」로 표시됩니다.
  4. 「지우기」로 초기화하거나, 「복사」로 입력 텍스트를 복사할 수 있습니다.
  5. 선택적으로 「비용 추정」을 펼쳐 1K 토큰당 단가를 입력하면 대략적인 API 비용을 계산할 수 있습니다.
  6. 설치나 가입 불필요 — 텍스트는 전송되지 않으며, 토크나이저는 브라우저에서만 실행됩니다.

토큰이란?

토큰은 GPT와 같은 LLM이 텍스트를 처리하는 기본 단위입니다. 단어는 서브워드로 분할되므로 하나의 단어가 하나 또는 여러 토큰이 될 수 있습니다. 영어의 경우 평균적으로 토큰 하나가 약 4자 또는 0.75개 단어에 해당하지만, 이는 대략적인 기준일 뿐입니다. 실제 토큰 수는 텍스트 내용, 언어, 인코딩 방식에 따라 달라집니다. 이 도구는 실제 토크나이저를 사용하므로 추정치가 아닌 정확한 수를 얻을 수 있습니다.

모델 인코딩: cl100k_base와 o200k_base

GPT 모델마다 다른 토크나이저 인코딩을 사용합니다. GPT-4와 GPT-3.5는 cl100k_base를, GPT-4o와 GPT-4o mini는 다국어 텍스트에 더 효율적인 최신 o200k_base를 사용합니다. 같은 텍스트라도 인코딩에 따라 토큰 수가 달라질 수 있습니다 — 모델 선택기로 비교해 보세요. 참고: 이 도구는 OpenAI GPT 모델만 지원합니다. Claude, Gemini 등 다른 모델은 자체 토크나이저를 사용하므로, 이 도구의 수치는 적용되지 않습니다.

토큰 시각화 읽는 법

시각화에서 각 색상 칩은 정확히 하나의 토큰을 나타냅니다. 인접한 토큰은 색상이 교대로 표시되어 경계를 쉽게 알 수 있습니다. 토큰 내 공백은 「·」, 줄바꿈은 「↵」로 표시됩니다. 텍스트가 2,000개 이상의 토큰을 생성하면 처음 2,000개 칩만 표시되지만, 표시되는 총 개수는 항상 정확합니다.

글자 수, 단어 수, 토큰 수의 차이

글자 수는 Unicode 코드 포인트 수(이모지와 CJK 문자는 각각 1개)이고, 단어 수는 문자 또는 숫자의 연속된 구간 수(공백으로 구분되는 언어에만 의미 있음)입니다. 토큰 수는 이 둘과 다르며, LLM이 실제로 처리하는 BPE 토큰의 수로 API 비용과 컨텍스트 창 사용량을 결정합니다.

활용 사례

프롬프트 관리 및 컨텍스트 창 제한

전체 프롬프트를 붙여넣어 모델의 컨텍스트 창 제한(예: GPT-4o는 128,000 토큰) 내에 들어오는지 확인할 수 있습니다. 제한에 근접하면 프롬프트를 줄여서 여유 있게 맞추세요. 제한 값은 모델 업데이트에 따라 변경될 수 있으므로 참고용으로만 사용하세요.

API 비용 추정 (참고)

API는 토큰 수에 따라 과금됩니다. 「비용 추정」 패널을 펼쳐 1K 입력 토큰당 가격(달러)을 입력하면 대략적인 비용을 계산할 수 있습니다. 실제 가격은 입출력 토큰 구분, 모델 버전, OpenAI 요금 변경에 따라 달라지므로 공식 요금 페이지에서 최신 정보를 확인하세요.

언어별 토큰 효율 비교

같은 의미를 표현할 때 한국어, 일본어, 중국어는 영어보다 더 많은 토큰을 소비하는 경향이 있습니다. BPE가 비라틴 문자를 덜 효율적으로 인코딩하기 때문입니다. GPT-4o의 o200k_base 인코딩은 cl100k_base보다 다국어 효율이 개선되었습니다 — 모델을 전환하여 한국어 텍스트의 토큰 수 차이를 직접 비교해 보세요.

자주 묻는 질문

토큰 수가 정확한가요?
지원하는 모델에 대해서는 정확합니다. 이 도구는 OpenAI의 GPT-4o, GPT-4, GPT-3.5 모델이 내부적으로 사용하는 것과 동일한 실제 토크나이저(BPE)를 사용합니다. '글자 수 나누기 4'와 같은 근사값이 아닙니다.
모델을 바꾸면 토큰 수가 달라지는 이유는 무엇인가요?
GPT-4o와 GPT-4o mini는 o200k_base 인코딩을, GPT-4와 GPT-3.5는 cl100k_base 인코딩을 사용합니다. 이 두 인코딩은 어휘가 달라서 같은 텍스트도 다르게 분할되어 토큰 수가 달라질 수 있습니다.
Claude나 Gemini의 토큰 수도 알 수 있나요?
아니요. 이 도구는 OpenAI GPT 모델(GPT-4o, GPT-4, GPT-3.5)만 지원합니다. Claude, Gemini 등 다른 모델은 각자의 전용 토크나이저를 사용하므로, 이 도구의 수치는 해당 모델에 적용되지 않습니다.
입력한 텍스트가 서버로 전송되나요?
아니요. 토크나이저 라이브러리는 페이지에 번들로 포함되어 있으며 브라우저에서만 실행됩니다. 텍스트는 기기를 떠나지 않으며 업로드되거나 저장되지 않습니다.
한국어, 중국어, 일본어가 토큰을 더 많이 소비하는 이유는?
BPE 토크나이저는 텍스트를 서브워드 단위로 분할합니다. 라틴 문자는 더 효율적으로 인코딩되는 반면, CJK 문자는 글자당 더 많은 토큰을 소비하는 경향이 있습니다. 최신 o200k_base(GPT-4o) 인코딩은 cl100k_base보다 이 부분이 개선되었습니다.
여기서 API 비용을 추정할 수 있나요?
대략적인 추정이 가능합니다. '비용 추정' 섹션을 펼치고 1K 입력 토큰당 가격(달러)을 입력하면 토큰 수에 해당 가격을 곱해 대략적인 금액을 계산합니다. 실제 비용은 입출력 토큰 구분, 구체적인 모델 버전, 현재 OpenAI 요금에 따라 달라지므로 공식 요금 페이지에서 확인하세요.
API 키가 필요한가요?
필요하지 않습니다. 토크나이저는 번들로 포함된 데이터를 사용하여 브라우저에서만 실행됩니다. OpenAI API 호출은 이루어지지 않습니다.

광고 및 분석을 위해 쿠키를 사용합니다.