中国kaiyun 多轮Agent蒸馏终于不翻车！港汉文x通义新要领收着力暴涨18点，磨砺还快32%

发布时间：2026-05-09 来源：开云盘口作者：admin 浏览：74

把苍劲模子的才略"蒸馏"给小模子，听起来很好意思——

但放到多轮对话 Agent 场景里，着力每每一塌费解。

为什么？

香港汉文大学磋商阿里通义办事群给出了谜底，并提议了一种名为 TCOD（Temporal Curriculum On-Policy Distillation）的磨砺要领。

上图（左）暗意在多轮 Agent 的 OPD 磨砺中，跟着交互轮次的增多，熟习模子对学生生成回话中各 token 的概率分拨捏续裁减，标明每轮的 KL 散度贬抑攀升，最终导致监督信号失效。（右）暗意原始 OPD 使用完好意思轨迹进行磨砺，因此包含了系数积聚的时弊；而 TCOD-F2B/B2F 则通过课程学习，从短轨迹渐渐彭胀至长轨迹，灵验侧目了时弊轮次的侵扰。）

团队发现失效的压根原因在于轨迹级 KL 不壮健性，每一轮时弊贬抑积聚，把学生模子推到忠实模子从未见过的景况区域，忠实的监督信号因此澈底失效。

而 TCOD 用课程学习的念念路，让学生模子从短轨迹动手、按次渐进地学习完好意思轨迹，一举责罚了多轮 Agent 蒸馏的壮健性难题。

TCOD 只需对现存 OPD 代码作念小数变嫌

On-Policy Distillation（OPD）依然在 SFT 和 RL 之后，成为了第三种灵验的 post-training 磨砺神态。

然则 OPD 天然在数学推理等单轮任务上很好用，但放到 ALFWorld、WebShop 这类多轮交互任务里，平直翻车：

小模子：KL 散度飙升 + 收着力坍塌到接近 0

大一丝的模子：天然最终敛迹，但运行 KL 极高，磨砺极不壮健

( ALFWorld 上不同师生模子组合的轨迹级 KL 分析。 ( a ) ( b ) 暴露，在系数磨砺进程中 KL 散度捏续攀升，同期任务完成率出现坍塌。 ( c ) 展示了 OPD 磨砺中运行 KL 与敛迹后 KL 之间的庞杂差距。 ( d ) 揭示了背后的压根原因：KL 散度随交互轮次的增多而增大，标明时弊沿轨迹倡导贬抑积聚放大。 )

那 TCOD 是怎么责罚的呢？

中枢念念路很苟简：别一动手就让学生闲适走完好意思条轨迹，用课程学习，从短到长冉冉来。

具体有两种变体：

F2B（前向到后向）：先让学生厚爱前几步，再渐渐接管后续设施

B2F（后向到前向）：先让忠实指引到接近尽头的景况，学生只厚爱临了几步，再逐渐上前延迟

两种神态只需对现存 OPD 代码作念小数变嫌。

KL 崩溃被澈底压制，小模子平直"满血回生"

团队在三个难度递加的多轮 Agent 基准上考据了 TCOD 的着力，包括 ALFWorld（具身导航）、WebShop（电商购物）以及 ScienceWorld（科学推理）。

在这些基准上，TCOD 收着力最高进步了 18 个百分点，同期把平均活动步数也一并压了下来。

最值得和顺的，开云kaiyun体育app入口登录官网是小模子的"死而复生"。

以Qwen3-1.7B为例，用 Vanilla OPD 磨砺后，模子在三个基准上的平均收着力仅有0.17%。

这险些是完满崩溃、毫无可用性。

但换上 TCOD 之后，兼并个 1.7B 小模子的平均收效纯厚接拉升至18% 以上，进步幅度越过 18 个百分点。

这意味着，TCOD 把一个"废了"的模子再行训活了。

关于更大的模子，TCOD 则是精雕细琢。

以Qwen2.5-3B学生模子为例，在 ALFWorld 的 Valid Unseen 测试集上，Vanilla OPD 收着力为60.45%，而 TCOD-F2B 的收着力为79.19%，进步了 18.74 个点。

不仅如斯，TCOD 还把完成任务所需的平均活动步数压缩了 2.97 步，推理着力和任务性能同步进步。

TCOD 与 OPD 在 ALFWorld 上的磨砺动态对比

上图 ( a ) ( b ) 分辨展示了以 Qwen2.5-7B 为学生模子，Qwen2.5-7B-RL 之后的当作 teacher 模子时的收着力与 KL 散度变化弧线。TCOD 在系数磨砺进程中永恒保捏更高的收着力，同期 KL 散度也愈加牢固可控。

TCOD 与 OPD 在 ALFWorld 上的磨砺动态对比

上图 ( a ) ( b ) 分辨展示了以 Qwen2.5-7B 为学生模子，Qwen2.5-7B-RL 之后的当作 teacher 模子时的磨砺进程中的平均活动步数与上风函数的变化弧线。

磋磨东说念主员还成心构建了一个Hard 测试集——

121 个熟习模子 pass@10 采样系数失败的任务，熟习本身收着力仅 6.61%。

纵容，Qwen2.5-7B 学生模子在 TCOD-B2F 的磨砺下，Hard 集收着力达到 20.66%，比熟习进步整整 14 个点。

让模子学会"从短到长、按次渐进"地走轨迹，不仅能学会忠实会的，还能泛化到忠实压根不会的任务。

△TCOD 与 OPD 在 ALFWorld 上的域外泛化及贫困集性能对比

另外，磋磨东说念主员还测试了磨砺着力。

TCOD-F2B 和 B2F 比 Vanilla OPD 减少了约32%的总磨砺时刻。

原因也很平直：课程学习早期只走短轨迹，rollout 更短、数据相聚更快，省下来的野心量异常可不雅。

团队还进一步考据了超参鲁棒性，发现课程彭胀速度 η 在 {2，4，6} 之间变动，收着力波动不越过 2%，险些不需要调参就能平直用。

TCOD 展现出的这种"按次渐进"形式，让 AI 更接近东说念主类学习的神态。

也等于先在苟简场景里站稳脚跟，再渐渐挑战复杂任务，而不是一动手就被扔进深水区。

改日，这类时序课程机制很可能成为磨砺长程 Agent 的标配组件。

论文：https://arxiv.org/pdf/2604.24005

GitHub：https://github.com/kokolerk/TCOD

ModelScope：https://modelscope.cn/collections/wjqkoko/TCOD

Hugging Face：https://huggingface.co/collections/kolerk/tcod

一键三连「点赞」「转发」「堤防心」

宽宥在辩驳区留住你的想法！

— 完 —

咱们正在招聘别称眼疾手快、和顺 AI 的学术剪辑实习生 � �

感兴味的小伙伴宽宥和顺 � � 了解确定

� � 点亮星标 � �

科技前沿证据逐日见中国kaiyun

雅博体育app中国官网入口

上一篇：上一篇：开云kaiyun体育app登录入口三分钟就能看完 100 页书？！披上“新科学外套”的伪科学骗局卷土重来下一篇：下一篇：开云kaiyun体育app登录入口马斯克22万张GPU全卖给Claude用：5小时名额翻倍，两边协作建天际算力

返回开云盘口