ART: 効率的な大規模言語モデルデコーディングのための注意実行時終了

ニュース概要

大規模言語モデル（LLM）における長文脈デコーディングは、広範なキー・バリュー（KV）キャッシュをフェッチするために必要なメモリ帯域幅によって厳しく制限されています。既存のKV管理方法の大多数はデコーディング前のキーのみプルーニングに依存していますが、注意出力はキーと値に共同で依存することが実証されています。