テイラー百科事典
FP16
FP16は16ビット浮動小数点フォーマットです。LLM重みを保存・演算する基本精度で、FP32に対しメモリは半分・演算速度は2倍、精度損失は学習・推論の両方で実用レベルに収まります。
FP16は16ビット浮動小数点フォーマットです。LLM重みを保存・演算する基本精度で、FP32に対しメモリは半分・演算速度は2倍、精度損失は学習・推論の両方で実用レベルに収まります。
7Bモデル基準でFP32は28GB、FP16は14GB。H100・A100、最近のApple Mシリーズもすべてネイティブ対応しており、デフォルトの選択肢として定着しています。さらに圧縮したい場合はFP8・INT8・INT4量子化へと段階的に降ろします。
→ 原典: NVIDIA · Mixed Precision Training