LLM Architectures
大语言模型架构总览,涵盖主要架构范式。
主流架构
| 架构 | 代表模型 |
|---|---|
| Transformer | GPT、LLaMA、Mistral |
| RNN-like | RWKV-LM、Mamba |
| MoE | Mixtral、DBRX |
核心组件
- transformers — Transformer 架构
- rotary-embedding — 位置编码
- linear-attention — 线性注意力
相关
- llm-from-scratch — 从零实现
- foundation-models — 基础模型