ATP

커뮤니티 뉴스 백과사전 행사·공모전 공지사항

기초 개념

토큰

Token

LLM이 처리하는 텍스트의 기본 단위. 단어 전체일 수도, 일부 조각일 수도 있어 단어와 1:1이 아닙니다. 가격과 컨텍스트 한도가 모두 토큰으로 측정됩니다.

16

토큰(Token)은 LLM이 처리하는 텍스트의 기본 단위입니다. 보통 단어의 부분 조각(단어 전체일 수도, 일부일 수도, 글자나 문장부호일 수도)이라 단어와 1:1로 대응하지 않습니다.

핵심 포인트

모델은 입력 텍스트를 토큰 목록으로 변환해 처리하고, 예측한 출력 토큰을 다시 텍스트로 되돌립니다. BPE(byte-pair encoding) 계열로 쪼개며, 정확한 분할은 모델·인코딩에 따라 다릅니다.
영어 대략 규칙: 1토큰 ≈ 4글자 ≈ 0.75단어(100토큰 ≈ 75단어). 공백과 문장부호도 토큰 수에 포함됩니다.
한국어 등 CJK는 같은 글자라도 영어보다 토큰을 더 많이 씁니다 — 보이는 분량이 같아도 비용·컨텍스트 소모가 더 큽니다.
가격과 컨텍스트 윈도우 한도 모두 토큰(입력 + 출력)으로 측정되므로, 토큰 수가 비용과 "담을 수 있는 분량"을 직접 좌우합니다.

이렇게 쓰여요

OpenAI Tokenizer 도구나 tiktoken으로 요청을 보내기 전에 토큰 수를 확인
예상 입력 + 출력 토큰 × 모델 단가로 비용을 추정

주의할 점

토큰-단어 비율은 어디까지나 근사치입니다. 모델·언어·인코딩마다 다르니, 가정하지 말고 실제로 측정하세요.

함께 보면 좋아요

파인튜닝 · 멀티모달 · RAG

공식 가이드