<aside> 💡 欢迎批评/指正/补充!
</aside>
非常全面的小综述:NLP(十八):LLM 的推理优化技术纵览 - 紫气东来的文章 - 知乎
KV Cache 计算公式与显存占用分析:(下文第 5 节)分析transformer模型的参数量、计算量、中间激活、KV cache - 回旋托马斯x的文章 - 知乎 KV Cache 优化:NLP(二十):漫谈 KV Cache 优化方法,深度理解 StreamingLLM - 紫气东来的文章 - 知乎
Continuous Batching 介绍:How continuous batching enables 23x throughput in LLM inference while reducing p50 latency by Cade Daniel et al.
- 翻译:如何解决LLM大语言模型的并发问题? - 幻方AI的回答 - 知乎
- 问答(可能来自 ChatGPT):LLM推理速度飙升23倍!Continuous Batching:解锁LLM潜力!
(下文第 3 节)NLP(十七):从 FlashAttention 到 PagedAttention, 如何进一步优化 Attention 性能 - 紫气东来的文章 - 知乎
generate
的 KV Cache 显存管理非常简陋,其用两个对象分别保存输入与要输出的 KV Cache,但后者通常包含前者