LLM
Large Language Model,大语言模型。 transformer 架构驱动的语言模型。
核心概念
- Transformer:基础架构
- Next Token Prediction:训练目标
- 涌现能力:规模带来的能力质变
- 上下文学习:ICL,无需微调
分类
| 类型 | 代表 |
|---|---|
| 闭源 | GPT-4, Claude, Gemini |
| 开源 | LLaMA, Mistral, Qwen, RWKV-LM |
关键技术
- 训练:[llm-training]
- 推理:[llm-inference]
- 微调:LoRA、QLoRA
- 量化:INT4/INT8
相关
- foundation-models — 基础模型
- llm-from-scratch — 从零实现
- open-source-llm-projects — 开源 LLM 总览