llminferenceoptimization type: concept 创建: 2026-04-27 更新: 2026-04-27

LLM Inference

大语言模型推理优化技术栈。涵盖推理框架、量化方法、推理引擎优化等。

优化方向

量化 (Quantization)

方法 精度 速度 显存
FP16 16bit 基准 基准
INT8 8bit +~30% -40%
INT4 4bit +~60% -60%
GGUF 2-8bit 高度优化 极低

代表方案:llama.cppvllmmlc-llm

推理框架

  • vllm — PagedAttention,高吞吐量
  • llama.cpp — CPU/GPU 高效推理,GGUF 格式
  • sglang — 结构化输出优化
  • mlc-llm — 设备端 LLM

KV Cache 优化

  • PagedAttention(vllm)
  • FlashAttention
  • Rolling Hash KV Cache

推理服务

  • nanobot — 游戏 AI 推理框架
  • localai — 本地推理 API 服务

相关