Autonomous LLM Research

Definition

一种 AI 研究范式：给 AI agent 一个可修改的 LLM 训练代码库，agent 自主提出假设、修改代码、运行实验、评估结果、迭代改进——无需人类干预即可连续运行数小时/数夜。

Human 提供：
1. 可修改的代码（train.py）
2. 固定评估标准（prepare.py/val_bpb）
3. Agent 指令（program.md）

Agent 自主执行：
修改 → 实验 → 评估 → 决策（keep/discard）→ 循环

原则	实现
职责分离	prepare.py（数据+评估）/ train.py（模型）/ program.md（指令）
固定评估标准	val_bpb 是唯一真理，不随实验变化
时间预算	5分钟确保实验速度（~100/夜）
可审查性	每次实验 git commit，结果可回溯
简洁性优先	同样的改进，更简单的实现优先

BPB = (Σ cross_entropy_nats) / (ln(2) × Σ target_bytes)

组件	技术
LLM 训练	nanochat（简化版）
包管理	uv（Astral）
Tokenizer	rustbpe（Karpathy Rust BPE）
数据源	HuggingFace `karpathy/climbmix-400b-shuffle`
并行下载	8 workers + exponential backoff