<aside> 💡 欢迎批评/指正/补充!

</aside>

非常全面的小综述:NLP(十八):LLM 的推理优化技术纵览 - 紫气东来的文章 - 知乎

Algorithms

KV Cache 计算公式与显存占用分析:(下文第 5 节)分析transformer模型的参数量、计算量、中间激活、KV cache - 回旋托马斯x的文章 - 知乎 KV Cache 优化:NLP(二十):漫谈 KV Cache 优化方法,深度理解 StreamingLLM - 紫气东来的文章 - 知乎

Continuous Batching 介绍:How continuous batching enables 23x throughput in LLM inference while reducing p50 latency by Cade Daniel et al.

(下文第 3 节)NLP(十七):从 FlashAttention 到 PagedAttention, 如何进一步优化 Attention 性能 - 紫气东来的文章 - 知乎

Libraries

[FYI] Optimize KV Cache - 空门的文章 - 知乎

小记:主流推理框架在Llama 2 的上性能比较 - 紫气东来的文章 - 知乎