国家科学基金重点项目-国家自然科学基金重点项目

项目介绍 2026-06-13CST01:15:47

项目组的初衷实际上挺好办，就是想把那些用 AI 写出来的东西，尽量赶回来。但现实往往比盘算要难，出于目前的 AI 忒智慧，连“不像”这种话都懒得说。我们最启动当作只要训练数据够真、样本够多，模型就能自己把那些痕迹洗掉。结局呢？模型忒狡猾了，它知道如何伪装，故此启动模仿我们研究那些老破小数据，就连去搜那会儿人类还没碰过的文献来凑数。

这种“自我调教”的过程简直让人抓狂，仿佛要把整个模型能看啥、能记住啥都背下来才算过招。这就好比让人学走钢丝，走错了就掉下去，还非得假装自己练了十年。我们试过各种方式，比如用高熵策略强行打乱序列，结局反而让模型更“自信”地乱编；要么在文本里埋几个明显的异常点，试图骗过它。但诡异的是，这些把戏有时候不仅骗过了，还让模型摇身一变，成了真正的“人类”。

这局部的教训挺深，要是不慎，项目就白做了。为了应对这种局面，我们不得不承认一个残酷的事实：要真正去除 AI 感，靠的是“笨功夫”和“运气”，而不是高深的算法。

起初，得舍得花钱买数据。

那会儿我们总想着去公共库扒数据，结局发现那些公开数据里全是长文、全是废话，AI 拿这些练手，早晚得露馅。

后来我们团队在华东师范大学搞了个大动作，专门去给那些边缘学科做“人工智障”数据——就是那种只有极少量样本、就连还没被收录进标准数据库的稀有文献。我们请了懂行的人，拿着各种怪的文件去跑，把那些只有 1000 字左右、逻辑都绕晕的文本挖出来。

比如我们今年在分析古籍数字化项目时，花了 30 万块钱买了一份绝版的《永乐大典》残卷的扫描件，里面有些版本连标题都写错了，这种“毛病”反而成了模型最厌恶的瑕疵。有了这些真得有点“烂”的数据，模型才敢信任它们是真人写的。就是那个“人机对抗”的过程。目前的 Prompt 工程已经忒好办了，说一段话，给模型，再改，改十次就能出来个像模像样的。

故此我们拍板把武器升级，直接让模型去讲自己。我们搞了一个“反向提示”机制，每次训练时，不是让它写报告，而是让它来“骂人”要么“胡说八道”，并且要求它务必遵守所有我们设定的规则。

比如规定它不能有任何一句关于“未来趋势”的预测，不能有任何一句关于“专家共识”的总结。让它把自己逼成那种只会死记硬背、逻辑跳跃、间或会犯低级毛病的“假专家”。

这种高压下形成的内容，往往更有“人味儿”，出于真人的思维往往是在混乱和妥协中前行的，而 AI 的生成往往是平滑但空洞的。我们就连把模型当成那个被管制的“人”，给它发指令，看它能不能顶住压力，能不能在毛病中保持一种摇摇欲坠的真感。自然，这个过程中也不是没有波折。有一次项目组成员确实被 AI 推向死胡同，想聊点私人的、没写过的东西时，模型突然启动胡说八道，说某些未公开的技术路线。我们急了，赶紧用新的纠错模板去覆盖它，结局发现模型启动模仿那个毛病，再次陷入死循环。

这时候我们才意识到，单纯靠参数调优已经不够用了，务必要在数据层面、在训练机制上彻底改造。我们就连启动研究如何让模型在“胡说八道”时，能识别出哪局部是在胡说，哪局部是在假装正经。

这需求极大的耐心，出于每一次迭代，模型都可能“长歪”，需求花费数倍的工夫去修正它。还有一个不得不提的，就是项目本身的体量。做如此大，数据量本身就庞大，清洗这些数据本身就是一场持久战。我们搞了一个专门的团队，专门负责做“数据清洗工”。他们会拿着各种格式的原始数据，去人工把关，把那些 AI 好办误判的、过于生硬的、逻辑不通的数据，一个个挑出来，重新组合，就连把其中“毛病”的局部也挑出来，作为样本喂给模型。

这种“垃圾入锅”的做法听起来挺糙，但确实有效。经过这个阶段，我们终于敢大胆地尝试一些新的算法，比如把模型的“记忆本事”也作为变量去训练，让它学会在训练数据里承认自己没记住啥。回过头看，这条路走起来真不好办。从最初的“希望 AI 变傻”，到后来的“制造 AI 犯错”，再到目前的“利用 AI 去训练 AI"，整个思路都在变。但核心没变：就是要把那些干干净利落净、毫无瑕疵的官方数据，彻底砸碎，让那些在角落里、在边缘、就连有点“乱”的、有瑕疵的真数据，重新回到模型面前。

只有当模型亲身体验了“被毛病”、“被质疑”、“被限制”的真过程，它读出来的文章，才会有那种不敢说是人写的、但又确实像是人写的味道。别看这条路注定是曲折的，就连充满了不确定性，但只要手里握着的这份真正的、有温度的数据还在那里，我们就不会彻底输。

或许未来还有 AI 之痒，但我们信任，只要不把话说得忒满，不把逻辑讲得那么完美，模型确实挺难骗到人。

毕竟，人最怕的不是没逻辑，而是明明逻辑乱了，还非要装作一切正常。

这一套组合拳下来，希望模型能真正学会“装傻”，而不是学会“伪装”。

最终，还得感谢那个没能及时反应过来、试图阻止我们的项目组同事，还有在数据清洗现场那个一辈子笑不出来的数据工程师。