我们平时工作生活中写东西是个绕不开的坎写个三五百字的短文还行一旦让你写个几千字的长篇报告或者深度文章是不是就有点头大写着写着就容易跑偏或者翻来覆去总是那几句话逻辑也开始混乱你可能会觉得这是我们普通人才有的烦恼那些看起来无所不能的 AI 大模型应该不存在这个问题吧还真不是实际上让 AI 写出又长又好的文章一直是科技界面临的一个巨大挑战
他们和我们一样写短了是高手写长了也容易翻车过去人们是怎么训练 AI 写长文的呢方法很直接就是教找来一大堆人类写的优秀长篇文章像为标准答案一样为给 AI 让他去模仿去学习这就像我们小时候上学老师发下来一堆范文让我们背诵仿写这个方法有用吗当然有用 AI 能学个七七八八至少格式上像模像样了但它的天花板也很明显它永远
他永远无法超越那些梵文写出来的东西总感觉有点僵硬缺乏真正的创造力和谋偏布局的智慧因为他学会的只是数而不是道但是最近有一篇名为 Longwriter Zero Mastering Ultra Long Text Generation via Reinforcement Learning 的论文给我们提供了一个全新的思路这个思路一言以蔽之就是把教学生的模式换成了带徒弟或者说练运动员的模式你看他不给 AI 标准答案了他做了一件更有意思的事
他找来了几个陪练和裁判 AI 你不是要写长文吗好你先放开手脚自己写一篇写完之后几个裁判就上来打分了第一个裁判说我只管长度你这篇文章长度是不是达到了要求太长或太短我都要扣分第二个裁判说我负责文章质量你写的流不流畅有没有内在矛盾逻辑是不是清晰整体感觉好不好第三个裁判更绝他说我来检查结构你是不是先思考再回答的有没有用重复的内容来凑字数 AI
AI 拿到这些反馈之后心里就有数了哦原来这么写质量分会高那么写长度分就没了怎么办调整策略再写一篇然后裁判再打分 AI 再调整周而复始发现这个方法的妙处了吗在这个过程中没有任何一篇范文来限制 AIAI 不是在模仿谁而是在一次次的试错和激励中自己去悟出写好长文章的底层规律
他在探索中学会了如何保持逻辑连贯如何构建复杂的结构如何避免自我重复这就不再是简单的模仿而是真正内化成了一种能力更有启发的是研究者们还发现了一个能让 AI 能力暴涨的小诀窍他们在让 AI 正式动笔写长文之前会先对它提一个要求你先别急着写把你脑子里的构思计划大纲先用文字完整地写一遍这个先思考再动笔的步骤效果出奇地好 AI
AI 会先规划好我第一部分要写什么第二部分要怎么展开如何确保风格统一当他把这些原思考都想清楚之后写出来的长文质量就有了质的飞跃你看这事对我们普通人有什么启发呢第一掌握任何一项复杂技能靠的不是死记硬背而是刻意练习加及时反馈无论是学编程学乐器还是提升管理能力找到一个能持续给你高质量反馈的裁判比你埋头看再多的范文都重要第二
原思考是拉开人与人差距的关键在处理任何复杂任务前都给自己留出一段思考如何思考的时间先别急着动手而是先规划你的作战地图我的目标是什么第一步做什么可能会遇到什么问题如何应对这个看似浪费时间的步骤恰恰是保证你最终能高质量完成任务的定海神针所以这篇关于 AI 的论文其实也给我们上了一堂关于学习和成长的课真正的高手无论是在哪个领域都不是被动地被教出来的
而是在正确的激励机制下主动地练出来的