テイラー百科事典
TTFT (Time to First Token)
TTFT (Time to First Token)は、ユーザーがリクエストを送った瞬間から最初のトークンが返ってくるまでの時間です。LLM APIの体感速度を決める最も重要な指標です。
TTFT (Time to First Token)は、ユーザーがリクエストを送った瞬間から最初のトークンが返ってくるまでの時間です。LLM APIの体感速度を決める最も重要な指標です。
全応答が生成し終わるのを待つと5〜30秒かかることも普通ですが、streamingでTTFTだけ短くする(通常0.3〜1秒)と、ユーザーは「速い」と感じます。ChatGPTのようなUXの核心トリックはここにあります。
TTFTはプロンプト長(prefillトークン数)、モデルサイズ、prompt cachingの有無、地理的位置、サーバ負荷で決まります。Anthropicはprompt cachingで再利用プロンプトのTTFTを最大85%削減できるとドキュメントに明記しています。
StreamingでTTFTを短縮する構造はP2. APIでLLMを呼ぶとはにまとめました。
→ 1次ソース: Anthropic · Streaming Messages