llminferencecppquantization type: entity 创建: 2026-04-27 更新: 2026-04-27

llama.cpp

用 C/C++ 实现的高效 LLM 推理工具,支持 GGUF 量化格式。

核心能力

  • CPU 推理(无 GPU 也能跑)
  • GPU 加速(CUDA、Metal、Vulkan)
  • 多种量化精度(Q4_0, Q4_1, Q5_K, Q8_0 等)
  • 纯头文件库,使用简单

量化格式

格式 体积 质量
FP16 100% 基准
Q8_0 ~50% 接近 FP16
Q5_K ~33% 较好
Q4_K ~25% 尚可
Q2_K ~17% 较差

相关