现在的人工智能比如你手机上的语音助手或者那些能跟你对答如流的聊天机器人他们好像真的能听懂我们说话但他们到底是怎么做到的呢难道机器真的有了意识能像我们一样理解词语背后的复杂含义吗要理解这个我们得先从过去的笨办法说起很久以前我们教机器理解一句话用的是一种叫循环神经网络也就是 RNN 的方法你可以把它想象成一条长长的传送带一句话里的词比如我爱北京
天安门就一个一个地被放上传送带机器每看到一个词就结合前面看过的所有词更新一下自己的理解这很符合我们的直觉我们读书不也是一个字一个字地读吗但这个办法有个大问题传送带太长信息传到后面就模糊了机器很容易忘事记不住句子开头说了啥后来天才们就想出了一个新办法也就是今天大名鼎鼎的 Transformer 架构这个新办法的核心叫做注意力机制
他不再像传送带那样挨个处理词语而是像开一个盛大的派对一句话里的所有词比如我爱北京天安门都同时进入这个派对然后每个词都会同时关注所有其他的词看看自己跟谁的关系最铁比如天安门这个词他会发现自己跟北京的关系远比跟我和爱要密切得多
通过计算这种远近亲疏每个词都能更好地理解自己在这句话里的角色和上下文这种并行处理的方式不仅解决了忘识的问题效率还特别高讲到这里你可能觉得哦原来 AI 理解语言靠的是给词语们开关系派对这已经很厉害了但今天我想带你看得再深一层让我们暂时忘掉语言来看另一个好像毫不相干的领域图什么是图
你的人际关系网就是一张图你和你的朋友是图上的点你们之间的好友关系就是连接你们的线一张城市的地铁线路图也是一张图每个地铁站是点地铁线路就是线那么有没有一种技术专门用来理解这种由点和线构成的复杂关系呢还真有它叫图神经网络也就是 GNN 它的工作方式就像是在社交网络里传八卦一个点的最新信息是由它所有邻居点的信息汇集而来的
一层一层地传递下去每个点就不仅了解了他的直接朋友还了解了朋友的朋友好了现在我们把这两个看似无关的概念放在一起一个是给词语开派对的 Transformer 一个是给社交网络传八卦的图神经网络你有没有发现什么有篇论文就提出了一个非常精彩的洞见论文的题目直截了当就叫 Transformers are Graph Neural NetworksTransformer 就是图神经网络他说你把一句话里的每个词都看成图上的一个点
Transformer 在做什么呢?它在计算每个词和所有其他词之间的关系强度这不就等于是在一张全连接图上做文章吗?在这张图里任何两个点对应于词之间都有一条线对应潜在关系而注意力机制就是用来判断每条线的粗细也就是关系强弱的你看从这个角度 Transformer 的关系派对本质上就是图神经网络在处理一张每个点都相互连接的极其特殊的社交网络图
这两个在不同领域各自为战的顶尖高手原来修炼的是同一门武功这个发现给我们什么启发呢最精彩的还在后面既然两者在数学上是相通的为什么今天我们言必称 Transformer 而图神经网络好像没那么出圈呢这就引出了一个更深刻的概念叫做硬件彩票 The Hardware Lottery 一个想法能不能成功很多时候不仅仅取决于它本身有多好还取决于它是否幸运地匹配了当时的基础设施 Transformer
Transformer 的计算方式主要是大规模整齐划一的矩阵乘法而我们今天主流的计算芯片比如 GPU 最擅长的恰恰就是这种大规模的并行计算所以 Transformer 等于是一把设计精良的钥匙正好能打开 GPU 这把锁而传统的图神经网络因为处理的是各种形态不一连接稀疏的图计算方式没那么规整在 GPU 上跑起来反而没有那么高效于是
尽管两者师出同门但 Transformer 因为中了一张硬件的彩票获得了巨大的发展优势变得又快又强最终脱颖而出成为了今天人工智能领域的绝对主流所以你看一个伟大成功的背后往往有多重逻辑它既需要一个优美的理论内核比如把语言看作一张关系网也需要一个残酷的现实筛选那就是它必须适配这个时代的工具和基础设施这给我们普通人一个什么样的启发呢很多时候我们觉得一个想法好但它却不适合
但它就是推行不下去我们可能会抱怨环境不行或者别人没眼光但今天这个故事告诉我们或许可以换个角度想我的这个想法是不是中奖了它是不是踩准了时代的节拍用对了当下的工具找到了一条能让它飞速奔跑的赛道有时候选择比努力更重要而看清脚下的路可能比埋头狂奔更关键