LLM Inference
大语言模型推理优化技术栈。涵盖推理框架、量化方法、推理引擎优化等。
优化方向
量化 (Quantization)
| 方法 | 精度 | 速度 | 显存 |
|---|---|---|---|
| FP16 | 16bit | 基准 | 基准 |
| INT8 | 8bit | +~30% | -40% |
| INT4 | 4bit | +~60% | -60% |
| GGUF | 2-8bit | 高度优化 | 极低 |
推理框架
KV Cache 优化
- PagedAttention(vllm)
- FlashAttention
- Rolling Hash KV Cache
推理服务
相关
- llm-training — 对比训练优化
- llm-from-scratch — 从零实现 LLM
- foundation-models — 基础模型