DLfinal
DLfinal 关注学习率计划改变训练损失曲线时,哪些残差信号可以从 cosine 计划迁移到 WSD-family 计划。它更像一个曲线诊断实验:先拆开 MPL baseline 的残差,再判断哪些结构是真正可迁移的学习率响应。
项目概览
如果已经观察到 cosine 学习率计划下的训练损失曲线,是否可以在不读取目标 WSD 损失曲线的情况下,预测 WSD-family 学习率计划下的曲线形状?
项目的核心不是把一条曲线硬拟合到另一条曲线上,而是把 MPL baseline 的残差拆开看:哪些部分像学习率下降造成的可迁移响应,哪些部分只是 MPL-LD 参数漂移带来的干扰。
- 学习率计划会改变训练曲线的形状,尤其是在 transition 和 tail 区域。
- MPL 本身已经是强 baseline,但它在 WSD 过渡区附近会留下有结构的残差。
- 直接搬运 cosine residual 会把低频漂移也带过去,因此需要先识别、再迁移。
项目把 residual transfer 写成一个识别问题:
1 | 预测曲线 = MPL 基线 + 可迁移响应强度 × 目标学习率计划的响应特征 |
其中可迁移响应强度只从 source cosine residual 中估计;目标 WSD 损失曲线只用于最后评估和 oracle 诊断。
| 观察 | 含义 |
|---|---|
| 投影后的 source-only correction 在同尺度 WSD-family 目标上整体改善 | 可迁移信号确实存在 |
| 不做投影的负对照明显变差 | 不能把 raw residual 直接搬过去 |
| source 估计强度与 target oracle 强度高度相关 | 识别出的响应强度有解释性 |
关键图示



仓库入口
- 主要展示材料:
slides/main_zh.pdf - 英文展示材料:
slides/main.pdf - 复现实验脚本:
repro/ - 核心图表:
slides/figs/
