TTFT (Time to First Token)

テイラー百科事典

TTFT (Time to First Token)

TTFT (Time to First Token)는 사용자가 요청을 보낸 순간부터 첫 번째 토큰이 돌아오기까지 걸리는 시간입니다. LLM API의 응답 체감 속도를 결정하는 가장 중요한 지표예요.

TTFT (Time to First Token)는 사용자가 요청을 보낸 순간부터 첫 번째 토큰이 돌아오기까지 걸리는 시간입니다. LLM API의 응답 체감 속도를 결정하는 가장 중요한 지표예요.

전체 응답이 다 생성될 때까지 기다리면 5~30초가 걸리기 쉽지만, streaming으로 TTFT만 짧게 만들면(보통 0.3~1초) 사용자는 “빠르다”고 느낍니다. ChatGPT 같은 UX의 핵심 트릭이 바로 이거예요.

TTFT는 프롬프트 길이(prefill 토큰 수), 모델 크기, prompt caching 여부, 지리적 위치, 서버 부하로 결정됩니다. Anthropic은 prompt caching으로 재사용 프롬프트에서 TTFT를 최대 85% 줄일 수 있다고 문서에 명시했어요.

Streaming으로 TTFT를 단축하는 구조는 P2. API로 LLM 호출이란에 정리했습니다.

→ 1차 소스: Anthropic · Streaming Messages

最終更新: 2026-04-21 · shuntailor.net テイラー百科事典
JAKO