1/30训练步骤复刻DeepSeek-R1！阶跃星辰开源推理模型RL训练方法

阶跃星辰联合清华大学发布Open Reasoner Zero（ORZ），提出一种颠覆性强化学习（RL）训练方法。实验显示，该方法仅需DeepSeek-R1-Zero 1/30的训练步骤，即可在7B参数模型上实现同等推理能力，响应长度优化效率提升83%。

技术核心在于去复杂化设计：

在Qwen2.5-Base-7B模型测试中，该方法在MMLU/MMLU_PRO基准分别取得78.2%和72.5%准确率，超越Qwen2.5 Instruct模型2.3个百分点。

研究团队在训练日志中发现关键转折点：

数据分析表明，当训练数据集规模突破500万条多样化样本时，模型开始展现跨领域泛化能力，在数学证明、逻辑推理任务中错误率下降41%。

ORZ项目实现全栈开源：

开源48小时内，GitHub仓库星标突破700+，开发者实测显示：

此项研究打破两大行业认知：

阶跃星辰CEO姜大昕透露，团队正探索将该方案应用于千亿参数模型训练，目标在通用推理任务中实现人类专家级表现。

开源RL训练方法复刻DeepSeek性能