llminferenceoptimization type: concept 创建: 2026-04-27 更新: 2026-04-27

LLM Inference

大语言模型推理优化技术栈。涵盖推理框架、量化方法、推理引擎优化等。

优化方向

量化 (Quantization)

方法精度速度显存
FP1616bit基准基准
INT88bit+~30%-40%
INT44bit+~60%-60%
GGUF2-8bit高度优化极低

代表方案:llama.cppvllmmlc-llm

推理框架

  • vllm — PagedAttention,高吞吐量
  • llama.cpp — CPU/GPU 高效推理,GGUF 格式
  • sglang — 结构化输出优化
  • mlc-llm — 设备端 LLM

KV Cache 优化

  • PagedAttention(vllm)
  • FlashAttention
  • Rolling Hash KV Cache

推理服务

  • nanobot — 游戏 AI 推理框架
  • localai — 本地推理 API 服务

相关