aillmagentautonomous-research type: concept 创建: 2026-04-10 更新: 2026-04-10
Autonomous LLM Research
Definition
一种 AI 研究范式:给 AI agent 一个可修改的 LLM 训练代码库,agent 自主提出假设、修改代码、运行实验、评估结果、迭代改进——无需人类干预即可连续运行数小时/数夜。
Core Pattern
Human 提供:
1. 可修改的代码(train.py)
2. 固定评估标准(prepare.py/val_bpb)
3. Agent 指令(program.md)
Agent 自主执行:
修改 → 实验 → 评估 → 决策(keep/discard)→ 循环
Key Design Principles
| 原则 | 实现 |
|---|
| 职责分离 | prepare.py(数据+评估)/ train.py(模型)/ program.md(指令) |
| 固定评估标准 | val_bpb 是唯一真理,不随实验变化 |
| 时间预算 | 5分钟确保实验速度(~100/夜) |
| 可审查性 | 每次实验 git commit,结果可回溯 |
| 简洁性优先 | 同样的改进,更简单的实现优先 |
Metrics
val_bpb(Validation Bits Per Byte)
BPB = (Σ cross_entropy_nats) / (ln(2) × Σ target_bytes)
- 越低越好
- Vocab-size independent → 架构变化可公平比较
- 衡量模型对文本的压缩程度
典型应用场景
| 场景 | 项目 |
|---|
| LLM 架构搜索 | autoresearch — 搜索最优 GPT 架构/超参 |
| 优化器搜索 | MuonAdamW 就是通过这个流程发现的 |
| 数据工程 | 改变数据混合、tokenizer |
| Prompt/指令优化 | 修改 program.md 迭代 agent 行为 |
Autoresearch vs 传统 AutoML
| 维度 | 传统 AutoML | Autoresearch |
|---|
| 搜索空间 | 超参数网格/NAS | 任意代码修改 |
| 评估频率 | 分钟~小时级 | 5分钟固定 |
| 人类干预 | 少 | 极多(program.md 迭代) |
| 创新来源 | 搜索算法 | Agent 创造力 |
| 可解释性 | 黑盒 | 每个 commit 可审查 |
技术栈
| 组件 | 技术 |
|---|
| LLM 训练 | nanochat(简化版) |
| 包管理 | uv(Astral) |
| Tokenizer | rustbpe(Karpathy Rust BPE) |
| 数据源 | HuggingFace karpathy/climbmix-400b-shuffle |
| 并行下载 | 8 workers + exponential backoff |
局限与挑战
- 局部最优 — Agent 可能困在 architecture 局部最优
- 代码级修改 — 无法探索全新的算法范式
- 5分钟预算 — 只适合快速收敛的任务
- 单 GPU — 扩展到多 GPU 需要额外工程