加载头像

Modelmid

Modelmid 研究数学解答文本的来源识别:人类、DeepSeek、Kimi、GLM、Qwen 等不同来源在公式密度、逻辑连接、段落形态和证明语气上会留下可学习的风格痕迹。

项目概览

Modelmid 研究“数学解答是谁写的”。项目以 Human、DeepSeek、Kimi、GLM、Qwen 等来源为主线,提取数学推导文本中的词频、结构、LaTeX、逻辑连接和段落风格等特征,训练分类器判断文本来源。

它不是简单地做通用文本分类,而是把数学文本的独特写作痕迹纳入特征:公式数量、行内数学密度、证明语气、逻辑词分布、段落长度等都会影响模型判断。

工作流

项目流程

数据构建

配对数学题目和多来源解答,形成用于训练、泛化测试和对抗实验的数据集。

特征提取

提取 TF-IDF、LaTeX 结构、逻辑连接词、段落形态等特征。

模型训练

比较传统机器学习分类器与端到端模型,并做混淆矩阵和特征重要性分析。

泛化与对抗

测试跨题库、跨学科、跨语言表现,并观察防检测改写对分类器的影响。

关键图示

加入 GPT 数据后的分类混淆矩阵
加入 GPT 数据后的分类混淆矩阵
不同来源数学文本的二维聚类可视化
不同来源数学文本的二维聚类可视化
文本来源识别中的特征重要性
文本来源识别中的特征重要性
我觉得有价值的点
  • 数学文本不是普通自然语言,公式和推导结构本身就是风格信号。
  • 对抗实验能反过来提示:哪些“模型味”最容易被检测出来。
  • 这个方向适合继续扩展到更多模型、更多学科和更细粒度的写作习惯分析。
查看完整 README 与代码
引用到评论
随便逛逛博客分类文章标签
复制地址关闭热评深色模式轉為繁體