你发现没有我们身边的大系统变得越来越复杂小到一个公司的网站大到一个国家的电网甚至是全球的物流体系都像一个你看不透的黑箱我们都特想知道一件事它接下来会怎么样比如一个电商平台搞大促投入巨大的服务器资源最后能换来多少效率提升这事要是能提前预测得省多少钱啊过去我们怎么干呢通常是请一堆专家把系统里成百上千个参数比如 CPU 占用率
内存网络带宽等等挑出几个他们认为最重要的做成一张巨大的表格然后用传统的统计模型或者机器学习方法去算指望能算出一个结果这就像什么呢就像一个老中医看病他只看舌苔脉象这几项指标然后开方子这在很多时候是管用的但如果病人情况特别复杂吃的什么
住的环境心情好坏这些信息都可能影响病情但没法填到一张标准化的表格里信息一旦被简化成干巴巴的数字很多宝贵的细节就丢失了预测自然也就不准了有没有更好的办法最近一篇名为 Performance Prediction for Large Systems via Text-to-Text Regression 通过文本到文本回归进行大型系统性能预测的论文就给我们提供了一个全新的思路它的核心想法一句话就能说清楚
别再费劲地填表格了直接把系统的所有情况用文字描述出来写成一篇情况说明然后让 AI 来读这篇报告直接告诉你结果你看这个思路的转变就非常有意思了它不再要求我们人类专家去划重点告诉机器哪个数据重要哪个不重要而是把所有原始的乱糟糟的甚至看起来很琐碎的信息比如这个计算中心在哪个城市也就是地理位置现在是周一上午还是周五半夜
也就是时间规律系统里跑的都是哪些公司的任务也就是用户构成机器的新旧型号网络结构是怎样的也就是硬件配置甚至连系统管理员输入的那些长长的配置参数都原封不动地写进去所有这些都被组织成一篇长长的文本然后训练一个语言模型它的任务就一个阅读这篇几千个字符的报告然后预测出一个关键性能指标比如 MIPS
per GCU 可以理解为计算机每一份资源的利用效率这就像我们从做选择题升级到了做阅读理解过去填表格的方式是把问题简化成几个选项机器只能在有限的框框里思考而现在是把完整的带有丰富上下文的文章交给机器让它自己去理解和推理结果怎么样呢论文里的数据显示这种方法的效果好的出奇第一预测精度大幅提升跟传统的表格方法相比它的预测误差降低了 100 倍
为什么?因为他看到了更完整的画面论文里提到了一个概念叫认知不确定性 Epistemic Uncertainty 说白了就是因为信息不全而导致的不确定性你给的信息越全面、越原始机器的这种不确定性就越低预测当然就越准第二,适应能力极强这个模型在一个庞大的系统上训练好之后把它用在一个全新的、它没见过的系统上你猜,需要多少数据来让它适应?只需要给它看几百个新例子
它就能很快上手做出同样精准的预测这说明它学到的不是死机硬背的规则而是一种通用的直觉第三对模型的要求并不夸张我们总觉得 AI 得是那种千亿参数的巨无霸才厉害但这个研究发现一个只有几千万参数的小模型只要结构设计得当比如同时拥有负责阅读理解的编码器和负责写作输出的解码器就足够胜任了这让普通企业应用它的门槛大大降低了所以这篇论文给了我们什么启发呢
我觉得至少有两点首先它提醒我们在面对一个复杂问题时不要急着去简化和抽象我们过去总认为抓住主要矛盾把问题简化成几个关键变量是解决问题的第一步但今天 AI 给了我们一种新的可能性保留问题的完整面貌用一种更丰富更接近原始状态的方式去描述它把复杂性本身而不是简化后的东西交给机器去处理其次这对很多行业的管理者来说是一个重要的思路转变过去的问题
过去我们花大价钱请专家来做特征工程也就是前面说的画重点填表格而未来我们的核心工作可能会变成如何更全面更真实地记录和描述我们的系统和业务你记录得越好你讲给机器听的故事越完整机器能给你的回报就越大总而言之预测未来的能力可能不取决于我们发明了多么牛的算法而在于我们是否学会了如何跟机器有效地沟通而讲一个好故事把事情的来龙去脉放放在一起
方方面面都描述清楚就是最高效的沟通方式这或许就是这篇文章带给我们的最朴素也最深刻的道理