DLfinal

DLfinal 关注学习率计划改变训练损失曲线时，哪些残差信号可以从 cosine 计划迁移到 WSD-family 计划。它更像一个曲线诊断实验：先拆开 MPL baseline 的残差，再判断哪些结构是真正可迁移的学习率响应。

项目概览

如果已经观察到 cosine 学习率计划下的训练损失曲线，是否可以在不读取目标 WSD 损失曲线的情况下，预测 WSD-family 学习率计划下的曲线形状？

项目的核心不是把一条曲线硬拟合到另一条曲线上，而是把 MPL baseline 的残差拆开看：哪些部分像学习率下降造成的可迁移响应，哪些部分只是 MPL-LD 参数漂移带来的干扰。

项目把 residual transfer 写成一个识别问题：

1	预测曲线 = MPL 基线 + 可迁移响应强度 × 目标学习率计划的响应特征

其中可迁移响应强度只从 source cosine residual 中估计；目标 WSD 损失曲线只用于最后评估和 oracle 诊断。

观察	含义
投影后的 source-only correction 在同尺度 WSD-family 目标上整体改善	可迁移信号确实存在
不做投影的负对照明显变差	不能把 raw residual 直接搬过去
source 估计强度与 target oracle 强度高度相关	识别出的响应强度有解释性