AG官方最新版app下载名师一定出高徒? 清华团队最新揭秘: 别再迷信大模子蒸馏免费午餐

ag官方网站登录入口-AG官方最新版app下载名师一定出高徒? 清华团队最新揭秘: 别再迷信大模子蒸馏免费午餐

你的位置：ag官方网站登录入口 > 番摊 > AG官方最新版app下载名师一定出高徒? 清华团队最新揭秘: 别再迷信大模子蒸馏免费午餐

AG官方最新版app下载名师一定出高徒? 清华团队最新揭秘: 别再迷信大模子蒸馏免费午餐

发布日期：2026-05-16 05:27 点击次数：114

AG官方最新版app下载名师一定出高徒? 清华团队最新揭秘: 别再迷信大模子蒸馏免费午餐

本文由清华大学 THUNLP 实验室颐养上海科技大学、伊利诺伊大学厄巴纳-香槟分校、中国东说念主民大学等多家机构商议者妥洽完成。

蒸馏的免费午餐，简直好意思味吗？

当下的大模子后历练（Post-training）pipeline 中，On-Policy Distillation（OPD）仍是成为了明星本领。从 Qwen3、MiMo 到 GLM-5，业界纷繁汲取 OPD 并论述了雄伟的性能擢升。比较于强化学习（RL）稀少的收尾奖励，OPD 提供了密集的 Token 级别监督信号，看起来就像是一顿「免费的午餐」。

但如若你亲手跑过 OPD，你可能会遭逢一个反直观样式：为什么我换了一个更强的 Teacher，Student 的性能反而毫无擢升，以致出现了倒退？

大模子时间的蒸馏，早就不是肤浅的「浪漫出古迹」了。

清华大学团队最新的一项商议，系统性地剖解了 On-Policy 蒸馏的黑箱。这篇论文不仅揭示了决定蒸馏成败的两大先决条目，还深挖了 Token 级别的对都机制，并给出了接济失败蒸馏的实用配方。

论文蚁集：https://arxiv.org/abs/2604.13016

代码库：https://github.com/thunlp/OPD

Thread https://x.com/HBX_hbx/status/2044464414829777354

样式篇：为什么「名师」出不了「高徒」？

银河国际游戏平台官网

在成例闪现中，Teacher 模子的分数越高，蒸馏效力应该越好。但商议团队通过严谨的对比实验，发现了按捺 OPD 庆幸的两个中枢律例：

律例一：念念维模式一致性（Thinking-Pattern Consistency）

商议者让弱 Base 模子 Qwen3-1.7B-Base 向两个智力周边的 Teacher 学习：一个是 Qwen3-4B (Non-thinking) ，另一个是只经过 GRPO 历练的 Qwen3-4B-Base-GRPO。收尾发现，由于学生亦然 Base 模子，它与经过 GRPO 强化的 Base Teacher 的 thinking pattern 更近（运转 Overlap Ratio 更高），最终的蒸馏效力获取了显贵擢升。如若早期念念维模式错配，后续很难十足弥补。

律例二：高分 ≠ 新常识（Higher scores ≠ new knowledge）

如若竭诚和学生念念维模式一致，且竭诚分数更高，蒸馏就一定管用吗？

商议者在 DeepSeek 和 Qwen 两个 family 里都看到相通的样式：同 pipeline、同 recipe、仅仅更大少量的 teacher，擢升颠倒有限；反而是经过额外 RL post-training 的 teacher，能规复更多 teacher-student gap。比如在 DeepSeek family 里，经过 RL 的 Skywork-OR1-Math-7B gap recovery 是 16.9%，而同 pipeline 的 DeepSeek-R1-Distill-7B 唯一 5.3%；在 Qwen family 里，这个差距以致达到 58.6% 对 15.6%。

这评释如若竭诚仅仅吞并条 pipeline、吞并种数据和 recipe 下作念得更大，它在学生眼里可能仅仅「吞并类分散的不同范例版块」，并不会提供若干新的可迁徙信号。

最狠的实验，是把学生「蒸馏且归」

商议者作念了一个号称极点的「反向蒸馏」实验：用 RL 后的 JustRL-1.5B 作念学生，让它反过来向我方 RL 之前的 checkpoint R1-Distill-1.5B 学习；同期再拿一个更大、分数也更高的同眷属 R1-Distill-7B 来作念对照。

收尾很不测：向 7B 学习和向 1.5B 学习，效力险些一样 —— 都让学生的智力倒清偿了前 RL 的水平，而且下落弧线颠倒周边！这评释，7B 固然分数高，但它相较于 1.5B 仅仅参数界限带来的红利，并莫得提供 Student 更多可学习的信息。 OPD 并不是在肤浅地「学习高分」，而是在主动索求并复刻竭诚的念念维模式。

机制篇：Token 级别的显微镜，看到了什么？

当 OPD 成效或失败时，在 Token level 到底发生了什么？

商议者监控了历练全经由的动态认识，发现了一个极为了了的端正：成效的蒸馏，ag官方网站登录入口是一场高概率 Token 的「双向奔赴」。

在成效的 OPD 中，Student 和 Teacher 的前 k 个瞻望 Token 的访佛率（Overlap Ratio）会从 72% 稳步攀升到 91% 以上，同期两者的熵差距（Entropy Gap）飞快疲塌。而在失败的 OPD 中，这些认识从新到尾基本无变化。

更热切的是的发现是：「访佛区域」就是一齐。

商议者把蒸馏方向隔断，作念了一组剥离实验。他们发现，那些被师生共同看好的高概率 Token 是扫数优化的中枢引擎，孝顺了主要梯度和上风。如若只对这些 Overlap Token 打算亏空，蒸馏性能险些不打扣头！而那些非访佛的 Token 对优化险些毫无孝顺。

处方篇：两招接济「不可救药」的蒸馏

如若手头唯一念念维模式不契合的 teacher，是不是就安坐待毙了？基于上述样式和机制，商议者给出了两剂「振领提纲」的药方：

1. 西宾 Rollout 上进行 Off-Policy 冷启动（Cold Start）

既然一上来就径直 On-Policy Distillation 容易发生念念维方式的不匹配，那就先用 Off-Policy 强行对都。在入手 OPD 之前，先让 Student 在 Teacher 生成的 rollout 上进行一轮轻量级的 SFT。这能径直拉高运转的 Overlap Ratio ，在随后的 OPD 历练成能丝滑启动，最终管制的性能上限卓越纯 OPD baseline。

2. 与西宾对都的教唆词（Teacher-aligned Prompts）

既然 teacher 的计谋是在某类 post-training prompt 上被塑造出来的，那就尽量让 OPD 看到更接近 teacher 历练分散的 prompt，包括模板层面的对都和执行层面的对都。论文发现，这如实能进一步擢升 accuracy 和 overlap growth；但代价是 student entropy 会降得更快，是以最佳和一部分 OOD 的 prompt 混用，幸免过早发生熵坍塌。

Template 对都

Content 对都

筹商与反念念：OPD 简直能无尽 Scaling 吗？

免费的密集奖励信号如实很诱东说念主，但商议者发现奖励信号的质料会跟着轨迹深度急剧衰减。

在长达 15K token 的反映中，商议者不雅察到了了了的「从后上前的熵垮塌」：跟着生成的久了，Student 的前缀越来越偏离 Teacher 熟练的分散，导致 Teacher 在后半段给出的奖励酿成了隧说念的杂音，进而激勉扫数历练的坍塌。这评释 OPD 当今很难径直彭胀到长念念维链或 agentic 多轮场景。密集监督与监督可靠性之间存在根人道张力。

此外，全局有用的奖励，不代表局部能被灵验优化。失败 teacher 给出的全局 reward 其实并不弱，永诀正确 / 诞妄 rollout 的 AUROC 以致和成效 teacher 周边，这评释失败不是因为 reward 信号自己莫得信息量，而是因为 reward 的局部优化几何结构出了问题 —— 全局有信息，局部却平坦。

写在临了：对于「更强」与「更可学」

咱们习尚了去寻找一个更大的模子来索修业识，想天然觉得越强的西宾教的越好。但这篇论文给出的谜底是：有时。在 OPD 里，更强不自动等于更会教。高分不自动等于新常识。大模子也不仅仅把智力「灌」给小模子，它更像是在传递一种念念维旅途、一种局部偏好的组织方式。

是以真实的问题，不是「teacher 有多强」，而是：

它和 student 说的是不是吞并种话语？

它带来的东西，是不是 student 还没真实学会的东西？

它给出的监督，能不行在 student 现时所在的位置上，酿成有用的梯度？

而这，也许恰是这篇论文最有价值的场地：它莫得再给 OPD 加多一个新 trick，而是第一次比较系统地告诉咱们 —— 为什么有些 teacher 能熏陶学生AG官方最新版app下载，为什么有些 teacher 仅仅在「看起来更强」。

推荐资讯

热点资讯

友情链接：

wxxxdl.com备案号备案号:

技术支持:®ag RSS地图 HTML地图

AG官方最新版app下载 名师一定出高徒? 清华团队最新揭秘: 别再迷信大模子蒸馏免费午餐

AG官方最新版app下载名师一定出高徒? 清华团队最新揭秘: 别再迷信大模子蒸馏免费午餐