大家好,我是 CK 我是 Jessica 欢迎来到美好生意与我们一起探索商业之美准备好了吗?我们出发咯!
24 年末 25 年初我们迎来了很多很魔幻的事情先是有小红书的破墙对吧世界人民大团结对大对账然后其实在科技行业也有一件让大家都很兴奋的事情有一家可能在过去吧在科技行业内部是相对低调的一家公司但是突然就成了当轰炸子级
这是一家全员土拨的中国本土科技企业但是它却延续着 OpenAI 最初的使命开放地推动前沿研究追求全人类普惠的 AGI 它的大模型系列 V3 和 RE 的推出对于海外的震动是很大的也算是大模型的小红书时刻吧其实我是想说一系列的高精尖人才被你用土拨两个字概括了
确实是土拨嘛,就都没有,对吧,他的那个最开始的 V2 的那个模型都没有从海外回来的人是,所以就是怎么说还是 respect 了以及这家公司其实它背后的母公司在金融领域里面是其实是很知名的,活了很多年的所以今天我们终于要聊一个就是跟我们俩的主业都有关的公司因为众所周知我是干金融的
Jessica 是干互联网的然后我们今天聊的这家公司它既是金融领域的佼佼者也是在这一轮的人工智能赛道非常突出的一颗星星 OK
所以今天我们要聊的就是 DeepSick 和他背后创始人梁文峰他的另一家在金融领域更为知名的公司叫做换方那我想可能包括我在内的听众其实对于 AI 对于大模型都未必那么了解所以在这里呢也请 Jessica 先给我们做一个简单的科普
我有几个问题先想请教一下就是什么是大模型以及大模型它能带来具体的实实在在的用处到底是什么 OK 我估计这几年这个词大家应该都听得有耳朵起茧了就一直在讲大模型那大模型里边关键词肯定是大那它什么是大呢 AI 有三要素是模型数据和算力所以我们其实可以从这三个维度把大模型和传统的机器学习模型进行一个比较
那首先第一个呢是它的模型的规模很大它的参数量能够达到通常啊都是在 11 个以上的
然后第二个的话就是它的数据量很大这个大的话基本上都是在 TB 甚至是 PB 的这个级别那第三的话是它在训练和推理时对于计算资源的这种需求很大它会需要有数百甚至上千个 GPU 以及大量的这个训练的时间所以它会把它称为是一个大模型对所以大模型是相对于以前的模型而言的
对吧那么这种大模型它能够做哪些传统机器学习模型做不了的事呢嗯 OK 我觉得其实可以举一些例子啊因为要不然就太太艰深了首先的话是在自然语言处理方面它其实能够理解和生成一些复杂的语义包括跨语言的这个理解交互那最近我们就还拿小红书举了也好了刚好这个全世界人民大对账这个对吧交流起来之后呢它
的翻译功能其实很快就上了嘛那所以大家都把这个翻译功能就已经玩出花来了因为它这个翻译功能其实就是在接入了大模型的 API 之后的一个也算是第一次这么大规模的在 C 端的这样的一个应用所以它都什么都能翻比如像 MOS 密码它也能翻然后还有大家常用的一些网络缩略语它也能翻我先考你一个你知道 CPDD 什么意思吗哈哈哈哈
这就是 cpdd 那你知道 dddd 什么意思吗
不知道我这个看来我已经步入了那个老年人生活了没有没有你只是数个大模型而已 OK 来来来介绍一下答案 CPDD 处对象吗 DDDD 懂得都懂吗 DDDD 这个我可以看到 CPDD 处对象是什么意思我也不知道反正就是网络用语 CP 然后 DD 对象那好吧不要深究 OKOKOK
然后这个是一个例子啊然后另外就是嗯他对于多模态信息的这种深度融合和推理方面他可以把不同的模态之间进行联合的建模映射和关联那举个例子他的应用就是我们可以输入一段文字嗯比如一段 prompt 对吧那么他会生成一张可以反映这个文字描述的图片或者是视频哦嗯
所以这个应该是也玩过的对吧因为现在有很多这样的一些功能嘛暂时还没有玩过被时代淘汰了 OK 那其实还有就是他对于复杂任务的处理和泛化方面比如说
我们可以直接提出一些比较复杂的需求那你这个春节对吧要带一家人出行旅游那么你根据你的日期目的地你的预算包括你可以有一些你的个人偏好那他就可以帮你去生成一个旅行计划这样相对一些复杂的一些任务他也能够帮你去完成这都是弹幕型可以去做的
就是我们经常看到说新一代的人工智能对于算力的需求而且主要是集中在 GPU 这个领域而不是 CPU 我其实很长时间一直都搞不明白包括为什么就是像现在英伟达的这个芯片成为了 AI 领域最核心的一个
卡点就为什么大模型它会需要 GPU 而不是 CPU 主要其实还是由于 AI 它在计算能力并行处理等这些方面的一些特殊需求去决定的我先讲一下它们的 GPU 和 CPU 本身的能力差别因为 GPU 它是擅长并行计算它需要同时去处理大规模的并行的简单任务
那就类似于就是你找一群小学生同时来解一千道小学的数学题那 CPU 它是侧重串行的计算就它可以处理单个复杂任务就类似于你让一个奥赛的金牌选手再一道一道的去解决奥赛的难题
那回到大模型本身大模型的结构呢它是一个复杂的神经网络结构它包含了海量的参数比如说你在去处理图像语音的数据的时候的话它是有大量的神经元同时在进行计算和处理的
最早可以追溯到 1943 年 MCP 模型的诞生应该说是标志者神经网络数学模型的诞生因为它这个模型本身就是希望能够去利用计算机去复制人类神经元的那个反应机制这是它的原理所以也因为这样的话那么这一套深度学习的算法它是具有高度的并行性的它需要对大规模的数据进行快速的处理计算
那另外还有一点就是可能对于这种内存带宽的需求就大模型它在整个训练和推力过程中是要频繁的去访问和读写大量数据的所以它必须要有高内存带宽那 GPU 的话这个就是配备的高带宽的内存但是 CPU 的话内存带宽就会比较低
所以大概是因为这样的一些原因然后另外也可以说一下其实 GPU 最早的话是在游戏领域使用的中央处理器它是一个很聚焦的领域原因就是因为游戏它是需要同时去处理大量的图形数据的比如说绘制图形计算光照效果然后视线高质量的图形的渲染所以 GPU 就逐渐发展出了很强大的这种并行计算能力
那这些特点的话都是和 AI 领域发展的特点非常适配的 OK 好的那为什么在 24 年的这个时点上 DeepSick 会突然出圈是发生了一些什么样的事情嗯 OK 嗯
其实这个出圈我也不知道就是出到什么程度了因为我们行业内肯定是很兴奋的但是那么在这个圈外是一个什么样的情况其实我没有太大感受你可以从你的角度也
分享一下 OK 因为我们本身是金融行业然后本身就会关注各个领域的一些重大的事件那么 DeepSick 出圈肯定是由于它在人工智能领域的一种影响力那么它其实也会影响到金融市场就是作为金融从业者我们肯定会对各个行业各个领域的这种重大事件会保持一个关注因为它可能会影响到金融市场影响到投资理财所以我是从这个角度会
当然也会天然的就会对行业的各种热点事件敏感事件像 DipSeq 这种出圈它已经是一个很现象级的一种出圈了所以作为金融从业者大家一定是会关注到的那我想可能对于其他行业的人士来说如果他是一个对时事热点比较关注的话他应该是多多少少会能关注到的就总而言之这次的出圈
它肯定不是一个行业内的这么一个出圈的概念它肯定是已经辐射到全社会的一个热点事件 OKOK 好呀那我就从这个先从业内吧先说一下就是我们为什么觉得它很出圈那确实是做出了比较惊人的一些成果有几个时间点
第一个时间点其实是在 24 年的 5 月份他推出了他的 VR 这个版本的模型当时出圈我觉得最大的点还是因为引发了行业的价格战他有一个大模型的收费方式就是你调用大模型的 API 你其实是要收钱的他的 API 定价是每百万 Token 输入一元输出两块
那这个肯定没概念那我们对比一下这个价格是 GPT-4 Turbo 的 1%1%的价格然后那它能够去引发价格战的原因是因为它推理成本的显著降低它为什么能够实现这个推理成本的显著降低呢是因为它开创了一个独特的架构就叫 MLA 叫
叫多头潜在注意力机制这不重要就这个东西呢它能够将显存的占用率减少到以前结构的 5%到 13%那与此同时它的模型的性能也是很强的就是 VR 这个版本就单论中文水平肯定是已经处在了国内外必然模型的第一梯队所以综合来说就是超高性价比
所以当时有一个称号叫他是 AI 界拼多多那他第二个出圈的点是在 24 年的 12 月 26 号他的 V3 版本推出并且他做了开源那我觉得这一步最大的出圈点就在于他是进一步的提升了性价比并且他做了开源这件事情还是非常非常的
这个了不起的首先呢就是性能上那 V3 它跟当时市面上就最主流的这一批最能打的这批这个大模型相比它的数学代码能力和中文知识问答方面是很突出的然后是超过了 GPT-4O 然后呢它的成本上它的总训练成本只用了 557.6 万美元 GPT-4O 是
一年一遍
算力上也只用了它所对标的另外一个大模型比如说 Lama 3.1 405B 的十分之一左右同时它公布了 53 页的全部训练和技术细节虽然我不懂但是又听你的这些数据就觉得简直就是碾压子存在所以叫国产之光虽然可能说性能上我们并没有一下子全面的超越国际最领先的水平但是你是以一个这么低的成本去实现的对 是的
然后第三个出圈其实就是很快 12 月 26 号推出了 V31 月 20 号就前几天它推出了 RE 版本那么仅时隔一个月 RE 在数学代码和自然语言推理的任务上又进步了就已经是可以比肩 GPTOE 的水平所以 RE 比 V3 在推理能力上又更进了一步
而且他也是把训练技术全部公开并且真留了六个小模型开源给社区总结一下出圈的原因就是他用了更少的资源和成本这个少是指数级的少就是十分之一甚至百分之一然后能够开发出性能逼近追评甚至是部分超越全球最领先者的模型
而且这里稍微展开一下刚才我们讲了那个训练成本上的比较其实它的训练时间也是非常短的比如说以 V3 为例 V3 的话是用了 2048 块的 GPU 训练了两个月的时间所以我们可以做一个简单的一个数学题就是用 2048 乘以 2 乘以 30 乘以 24 我们换算成一个标准单位就是说它用了 278 万
GPU 小时而与此对比的是拉玛 3.1405B 它训练花了 3080 万 GPU 小时
所以他只用了十分之一的时间而且这里面他们用的卡是不一样的就是 Lama 用的是 H100 是一个性能更加好的英伟达的卡而 DeepSick 用的是 H800H800 是一个因为那个美国的禁售令所以英伟达阉割过后阉割版的一个卡所以其实是我们以更差的硬件但是用了更少的时间更低的成本把它训练出来的
所以还是非常了不起的但你如果要说实在是有一些弱点相比之下的话可能是在上下纹窗口因为这一点还是会比较重要的就是 V3 它能够理解和记住的上下纹长度会有限就举个例子就你体感上你用它的时候你会发现聊着聊着聊着它就会提示你说
这个已经超出了这个最大上限所以你要另外起一个窗口去继续聊这个话题但这个时候你的背景信息已经都没有了你得重新把那个背景信息做一下输入这点上影响还是会比较大的那我觉得经过你的刚才这个部分的介绍让我对 DeepSick 有了一个更加直观的感受就是说白了之前可能就是我们从感性上知道这是一个
爆炸性的事件然后很牛逼很牛逼但是通过你刚才的这种具体的对比我在此时此刻在当下我觉得有被深深的震撼到就是一个小米加步枪干出了飞机加大炮的这个活对 成员突破对
好呀对我这里其实要想跟大家再分享一点的就是我们知道 DeepSick 它是做出了比较惊人的成就嘛那但这个墙会带来什么影响对吧它到底只是在技术层面墙那跟我们的生活有什么关系是的哇这个好期待来来来来那么我觉得这里可能需要跟大家讲的是关于大模型到现在为止的一些商业化的一些模式刚才我们有提到第一点啊就是它 API 会收费嘛
这就是它的第一个主要的商业模式就是它别的企业用它的大模型那我是需要对这个调用进行收费用那我想问一下什么情况下企业会需要用到这个大模型呢它的应用场景会是哪些呢 OK 像这种一般可能中小企业会用的比较多就是它会它不会自己去自己训一个大模型嘛但是我需要有你的能力那我需要我自己公司内部有一些这种呃
数据什么体校方面的或者是说一些应用开发方面的一些需求比如说我要做一个智能客服 OK 对吧你们金融行业肯定也是非常你们可是我们的主要客户是吧你不要不想我们在员工打电话了让一个 AI 来打电话太好了对那这种的话他用的基础能力可能就是这个调用大模型的能力那我需要对这个调用收费吗 OK 这是一个比较具象的就比如说用在客服领域对就这个
作为一个例子嘛那以后就是说淘宝上的这个就是淘宝的小二不是应该这么说不太对应该说是商家的那个客服就可以全都替换成大模型了理论上来说是可以的好这第一个然后第二个的话就是那么有些企业的需求会更进一步就是我不光是调用就我希望你来给我做一个完全定制化的解决方案嗯那大企业就会比较有这样的资本嘛嗯那嗯
就直接按照一个项目招标的方式来进行比如说像 AI 六小龙里面的支普支普 AI 它就是一个典型的这种 2B 的公司那它 24 年的话就是据我了解应该是中标 32 个项目金额超 1 亿元那这样的话它平均一个标可能是 300 多万所以这也是大模型的一种商业化的方式
那还有一种的话就是收订阅费和会员费比如像那个 ChangePT 它的 Plus 版本是要收钱的嘛就每个月你是要交 20 美金的那这也是它商业化的来源
啊这三种是最最主要的然后其实还有一个第四个但是这个并不还不普及啊就是他做软硬件的结合比如 gpt 其实是预装进了那个苹果的 apple intelligence 啊然后谷歌自己的那个 jamline 那个模型他也会迁到他自己的手机里嗯啊所以大概是这样一些呃
模式那能否请 Jessica 再给我们展开一下就是像比如刚才提到的大模型可以用在客服的领域那还有哪些应用层面的领域是能够让我们普通人能够对大模型这个事有一个更加具体的理解的
其实我们能够看到现在以六小龙吧这样的公司为例啊他们都会有自己的这个大模型那他是有一部分的收入来源是按照刚才我说的那种方式对企业提供服务来去授权的那还有一条路径也是他们都在做的就是他会用以自己研发出来大模型为一种基础能力他去呃
衍生出一系列的 2C 和 2B 的应用那这些可能就跟我们移动互联网时代的这个逻辑是比较一致的了比如说像这个 minimax 它的一个很有名的产品就是星野在国内是星野然后在国外的话是 talking 它是一个 AI 情感陪伴类的一个产品因为我说这个可能就是 C 端的用户就会比较有体感就等于是你有一个虚拟的陪伴
就虚拟的恋人或者虚拟的一个朋友就你们可以在这个产品上进行很多的这种交互哇塞我想到了日本的第四消费时代怎么又扣提了又扣回到我们的对啊最后就是情感上的链接嘛嗯那现在可以用一种智能的技术来提供这种链接了对因为其实 AI 的应用是非常非常广泛但是我们如果切大类来说一种当然就是情感的链接另外一种就是我工具层面的生产力的体效对啊
这都是他的工具层面会有哪些嗯工具层面的话其实今天呃我觉得走的比较靠前的话就是在广告营销领域了比如说我以前我是一个淘宝的商家然后我需要去拍很多的模特的这个商品图我是要花钱的我是要去请模特来实拍的是这是非常非常高的成本但我今天可能是一个 ai 生徒我我我的我的成本能降到极低极低然后而且我的时间非常很快我批量的出土那我是不是可以理解为今天的
直播的主播将来也是可以被虚拟人当然现在已经有很多在去做这个直播的这个数字人的这种这个技术方案了哇塞对我直播的时候就是一个数字人在讲嘛但只不过今天这个数字人这个我目前还没有看到说特别特别就是那个成功的一些产品啊但是这显然是一条很明确的一个路径有很多公司在探索
刚才我们讲完了大模型的这个商业模式然后也提到了说 DeepSeek 的 API 调用收费和其他家的差别是很大的我觉得可以举一些具体的数据大家可以感受一下这个价差有多大就它的输入价格是每百万 Token 缓存命中一毛钱未命中是一块钱那与此相比 GPT-4O 是 35 块钱 Cloud 3.5 Sonnet 是 21 块钱
输出价格的话它是每百万 token 两块钱而 GPT-4O 和 Cloud 3.5Sonic 都是 105 块钱所以它的价差是几十倍的以一个几十倍的价差你就能够感受到它对于整个市场的影响是非常大的了有个数据是大模型推理成本在过去三年平均降低了 1000 倍
那这一千倍是由于整个行业不断的去进行技术创新和市场竞争的结果那 DeepSeek 就显然是其中的一条大鲶鱼而且目前看来这个趋势还在
持续所以就说到这儿我觉得还是有一点小激动的就是我们回顾一下整个互联网的这个发展立场它能够被普及的一个很关键的驱动力其实就是网费的下降和网速的变快所以就这样的基础设施的普及的话是会让我们的整个社会生活发生翻天覆地的变化对所以刚才听你介绍完就是说大模型会成为新一代就下一个 generation 的
下一个世代的基础设施然后在这个基础设施之上又会诞生很多新的生态嗯没错是 OK 对这就让我想起就是就是你刚才所说的互联网的普及那么首先是兴起了电子商务然后由于带宽的增加我们的视频开始而且而且你发现这个基础设施一直在降价一直在降价是其实他基础设施的完善
不光既有性能的完善也有价格的下降嘛那只有在这种各方面的条件都达到的基础上各种生态才能起来那确实是有很大的想象空间我可以理解了对已经从一个热点事件对变成了一个生活中就是你需要去参与的一个浪潮了然后另外从我个人来讲我自己觉得 DeepSeek 受到今天这么多的好评和尊重除了确实性价比高
然后而且他是在算了一倍卡脖子的情况之下就走出了一条中国本土创新的道路那还有一点是我自己比较尊重的就是他秉持的这种 AGI 的价值理念以及他确实有在践行这个理念就是说以开源精神和长期主义追求普惠的 AGI 我可以举几个例子首先第一个肯定刚才我们提到的降价这个事就降价这件事他的 V2 在推出
30 天之内所有大厂全部跟进降价但是 DeepSeek 的创始人梁文峰他自己对于降价的看法是他觉得无论是 API 还是 AI 本身应该是普惠的就人人都用得起那他降价是因为他自己把成本本身就搞下来了所以他只要按照自己的步调去做事我稍微在成本之上加一点点利润那就可以了嘛呵
这真的是一个商业的天才你知道你在说这句话的时候我想到的是什么吗就是当年马斯克为什么他做出来的这个 modelmodel3 他价格直接打的这么低就一回事吗这我可以我可以对就是我在这个价格上我是赚钱的你们都不赚钱对是
然后第二个就说到开源就开源这件事情它的开源我觉得是真正的开源因为首先 RE 推出的时候它调整了它的开源协议它用了一个 MIT 协议就这个协议我们不展开但是我们可以跟听众们讲的就是它的意义在于
这个协议之下是允许任何人以任何方式去使用的嗯就你想商用就商用你想怎么改怎么改你改你也不用去备注说明等等都不用你就用它就可以了嗯然后第二件事就是他支持用户去做模型蒸馏什么是模型蒸馏啊
模型蒸馏的意思就是说我把简单来讲就像就很复杂的一个大模型的知识用一些方式迁移到一个简单的小模型上因为它有一些模型我并不需要用到那么多的这个计算资源所以它的这个场景就有了更广大的使用的这种可能
但有一些开源模型是不支持或者是他无法支持这种模型蒸馏的所以就是你会觉得他做的开源很实在然后第三个就是他对于自己未来公司商业模式的一些推演和设想就从一些报道里面看到的就是他想的是说
他未来是把训练结果大部分做公开的分享那这样的话哪怕是一个小的 app 都可以低成本的用上大模型而不是把技术只掌握在小部分的人和公司手里你知道我从这个部分看到的是就安卓的影子呀对吧安卓最开始也是这么干的嘛所以刚才你提到 DeepSick 的创始人梁文峰那我们也把梁文峰的这个个人成长经历来给听众朋友们做一个梳理吧
其实算是我们的同龄人虽然可能比我们大了一丢丢但是我们之间的差距是巨大的好厉害哦真的好佩服他哎怎么办这就是人和人的差距比人和人和叉叉的差距多大吧就让我们带着一种欣赏的眼光对
梁文峰 1985 年是出生于广东湛江他 02 年是考上了浙江大学的电子信息工程专业读本科 07 年考上浙江大学的信息与通信工程专业读研究生
在他研一的时候就是 08 年他其实就开始跟同学一起组队积累市场行情的数据金融市场相关的数据和一系列的宏观经济数据了当时已经开始使用机器学习的技术去探索全自动化量化交易 10 年他从研究生毕业毕业之后三年他就跟他的同学徐进一起创办了杭州雅克比投资管理有限公司
到了 15 年他和徐进一起创办了杭州换方科技有限公司然后面改名为浙江九张这也就是 DeepSick 背后的那个母公司是的 6 月份他创建了换方然后 10 月份中振 500 股指期货上市标志着中国量化四目进入了 2.0 时代 2016 年
换方量化推出了第一个 AI 模型使用 GPU 进行计算 17 年继续扩大 AI 算法研究团队和 AI 软硬件研发团队到了年底它的几乎所有量化策略都采用了 AI 模型计算 18 年换方量化确定以 AI 为主要发展方向
19 年创办换方 AI 公司然后在这一年他们其实是投资了两个亿去训练了萤火一号这是一个深度学习的训练平台
我其实记得那会儿就是我们在拿到换方的产品的整个的路演材料的时候它里面是有提到他们是有自建一台超算的我不知道这个超算是不是就是这个萤火一号但是当时在他们的材料中是说全中国只有两台超算第一台是在中国科技大学下面的一个研究所里面超算中心对就在换方然后当时我们就觉得哇
好牛逼但是另一方面又不知道如此强的技术和他的量化业绩之间有什么关系后面是不是就显露出来了倒没有倒并没有他的业绩跟 AI 之间的没有关系我觉得关系并不显著所以后来他做 Tipsic 这件事情他也说了他说他做这个事并不是为了去更好的去做量化的只是应该说是他们一直延续的
大数据算法或者是人工智能这个路线只不过是最开始把这个路线运用在了金融的领域先赚到了人生的第一桶金先解决了财富或者是钱的问题然后再来就他们的核心的关注点还是在人工智能的技术发展上对包括建这个
超算也不是为了去更好的去做量化的生意其实他在专访中也提到他们这两件事没有特别大的关系那所以其实他一开始的路线或者他主线从来没有变过从现在的心理来看是这样只不过在他早期的时候他选择了一个切入点对
我顺带的用其中的一些技术解决了一些叫现实温饱的问题因为你也可以这么来理解这个问题因为本身量化它是要基于或者本身人工智能这个东西是要基于大量的数据然后去做验证的其实在金融市场这是一个很好的试验场因为它每天就是各种数据包括它有很长期的历史数据可以来供你去训练和对
包括老文风自己说如果他只是为了做量化的话其实他根本就不需要这么超强的算力对他不需要那么多卡对说到卡其实从
17 年开始到后来这个换方应该是不断的在囤卡但是虽然他阶段性的需要那到了 21 年的时候他的整个 A 级群的显卡已经达到了万卡级别当时应该是国内是有 5 家公司到万卡吧那除了他之外其他 4 家都是互联网公司大厂对互联网大厂只有换方这一家
是一个异类单纯从做量化的角度来说确实是个异类对就不需要对所以后面的故事大家就比较清楚了 23 年 5 月份梁文峰宣布要做通用人工智能也就是 AGI 那他实控的 AI 研发机构北京深度求索就正式成立那很快 24 年 5 月份刚才我们提到了他推出了 DeepSeek VR 引发国内大模型价格战对
所以这里边其实有一些关键的时间节点然后我们留意到的就第一个他其实在研一的时候就已经关注到了金融市场并且开始使用机器学习的技术探索全自动化的量化交易了然后第二个
他硕士毕业很快就创立了投资管理公司两年之后中国量化私募进入到 2.0 时代第三他自 16 年推出第一个 AI 模型之后他是一直把 AI 作为发展方向的为此囤积了大量的 GPU
21 年他应该是亚太地区第一批拿到 A100 的公司然后两年之后 GPT3.5 就横空出世了大家都熟知的 ChaiGPT 然后从此之后全球对于 GPU 的需求激增
所以从这些时间点的回顾来讲我们会有感觉就是他好像每一次都能够选择到浪即将来的地方我自己研究完之后我倒不觉得他有很强的这个择时的能力而是他做了他该做的事然后恰巧时代就来了
其实我也不觉得他是那种投机的或者是说我是机会主义者我四处看准的一个时间点然后我就提前进入进去我倒不觉得这种则是而是我会觉得他肯定是做对了一些什么事情就是最终的结果是体现为步步领先没错没错没错以及我们在梁文峰身上看到了他有很多非共识的选择
首先第一个我们节目一开始就一直在说土拨土拨可能虽然是有点戏谑戏谑的成分但是没有任何的不尊重的意思
我们是非常尊重的很厉害对就是行业自嘲因为大模型这个领域历来都会认为是说对吧硅谷肯定是最尖端人才的地方也一直是希望从那边去引进人才但是这样一个土拨前时土拨的公司搞出来了这么受人尊重的成果所以他的非共识选择的第一点就是土拨新人甚至是没有模型训练经验的人
在 23 年 5 月份 DeepSick 当时还啥都没做出来的时候梁文峰当时接受过采访那个时候他就亮过他的招人标准就看能力而不是看经验其实听起来就还挺理想主义的但实际上他真的就是很有效的他就是在这么做我觉得最关键的是他真的是在这么做而且有效他拿到结果了
它的核心技术岗基本上是以应届和毕业一两年的人为主就从后来陆续发表的那个论文贡献名单也可以看到就是博士在读应届生或者毕业一两年的这种成员是占了大部分然后 22 年底到 23 年的时候因为 GPT3.5 爆火那个时候国内确实是流行到硅谷取经和挖人
那当时的行业共识是说该领域前 50 名的顶尖人才都不在中国但梁文峰用的是国内自己成长起来的顶尖年轻一代在这里面就是清北计算机的翘楚然后各种 NOI IOI ACM 这种竞赛的金牌得主他用的都是这样的一批人
所以说到这里的话我觉得可能要先讲一讲就是说就是整个这个 AI 发展到现在这两年多的时间行业里面其实对于选什么样的人才画像算是有一些共识可以部分的去验证梁文峰的选择就比如说第一点就是大家认为要选 AI native 的人啥叫 AI native
这个 native 的意思就是说他不受上一个时代这个这一套模型结构和训练思路的束缚的人那比如说像从所推广算法转型的可能不是首选啊或者是一些有 AI 经验的这个老将可能也未见得是首选虽然其实很多的公司是这样就是以这样的为一个旗帜去把这公司给拉扯起来的嘛
就是你一上来就应该是接受大模型这套思路的新人因为他这这套东西已经跟上一个时代是有很大的差别 OK 所以你不应该带着一个历史经验的包袱或者是一个束缚来开始这个新的这趟还有就是大家的目标不同嗯有些公司的目标我也是挣快钱的对我还是希望能够快速的商业化对
那我就是拿来主意啊就我如果是短期挣钱我肯定是有我要有经验的对吧但如果我的目标是更长期的或者说我真的是要去做最颠覆式的创新的那我的选人方式可能不一样
然后第二个算是共识就是说要选算法加工程都懂的人那这条我觉得今天 DeepSeek 的这个结果已经验证了就是因为它非常重视软硬件的协同所以使得它能够以十分之一的算力训练出性能更高的模型这些我觉得算是一定程度验证了梁文峰的选择但是即便是这样它还是会有它的
非共识就比如他没有选择从硅谷挖人这是一个主动的选择这是一个主动的选择就压根一开始就没打算走这条路是我们所以一直在说人家吐蕃吐蕃的那他对此的观点是说
全球前 50 的人可能确实不在中国但也许我们能自己打造这样的人然后还有一个他的非共识就他选的 AI Native 就是 Native 的非常非常的彻底就彻彻底底彻底到他选的人可能加入之前就别说是什么转型了他可能连模型训练本身的这个经验都没有甚至不是计算机出身的
别的专业转的据说啊就 DeepSick 是比较擅长从细节去招人的虽然我不知道什么细节金牌啊我感觉好像不完全是因为金牌是一个完全可标准化的一个可以亮明的标准嘛但是梁文峰他自己是说他招的人可能身上会有一些非传统指标里被评价的他会有一些很奇特的经历所以我自己很好奇这部分都不知道是什么就其实这个部分怎么说
其实是一种风险蛮高的选择的是当然对对对是这样的然后第二个它的这个大的非共识我觉得就是在模型创新的信念和路径上面因为他首先认为创新就是信念的问题我记得 ChainGP 出来之后其实国内当时有比较长的一段时间还是普遍论调就认为对于国内的前沿创新是比较缺乏信心的
觉得疫情三年对吧中美的差距再次拉开都觉得差距太大了但是梁文峰至少从现在往回看啊他应该是坚定的很认为中国的 AI 是不可能永远处在跟随位置这个是一个然后另外一点就他在创新路径的选择上就我们刚才讲到了 MLA 这个架构的退出嘛
它其实是一个不同于 Transformer 的一个架构或者说它在这个注意力机制上有它进一步的这个迭代和升级那大部分的国内公司都会比较自然的去追随 OpenAI 已经确定的这个路径因为别人走过成功了那我跟着走肯定不会出错但是 DeepSeek 对于模型架构的反思是从第一天就开始的要不然就不可能有 MLA 这个架构的诞生所以又反向的去说明了它为什么
他会录用根本没有模型训练经验的人因为这种人可能就根本就不会去找调整答案对所以由此说开去我觉得辽文峰可能在一些底层信念上就是非共识的比如说原创式的创新
那比较惯性的认知就可以认为是基于上一个时代的这种经验主义的看法吧就是美国擅长创新嘛做 0 到 1 那中国呢擅长去卷应用啊做 1 到 N 然后包括可能今天整个这个大的经济环境是相对比较差的情况下可能对于原创式创新应该都是不利的
但梁文峰还是会认为说中国产业结构的调整会更加的依赖硬核创新而且会越来越多所以当大家过去赚快钱只是来自于时代运气的时候那就今天会更愿意俯身去做真正的创新这段话我联想到的是什么就是在投资领域里面有一本很著名的书叫做黑天鹅然后他里面就举了一个例子他说有一个农场主养了一群火鸡
然后呢他每天都给这群火鸡定时定点的去喂吃的然后这个火鸡里面呢就有一个经济学家火鸡经济学家他就由此得出了结论就是每天早上的十点钟我们会收到一笔吃的
然后到了第 1001 天的时候也就是美国的感恩节的时候这群火鸡像往常一样把头伸出去准备要那个吃的但是等来他们的是屠刀火鸡感恩节的大餐对
所以就是这样其实是同样一件事就是说上一个时代的范式在未来是否可持续是不确定的你要回归到问题的最根本源去考虑这个问题所以你刚才提到的就是说很多的非共识其实我们要问的是所谓的共识它到底是什么它是一种纯粹的经验主义还是是一加一等于二如果说比如说我们说一加一等于二这是一个数学层面的或者是一个
客观层面的东西就是不管时代怎么样的变化一加一应该是等于二的对吧就是恒定的原理对但是除此之外的一些经验主义比如说美国做原创中国做运用
没有人如此规定过它只是过去几十年里大家形成的一种产业的趋势甚至在这条趋势形成之前也没有人说中国你就做应用它是一个实践出来的结果它是结果而不是原因所以我觉得这可能是我们看似很多非共识背后的因素所谓的非共识是因为我们把一些
东西简单的理解为了共识但是你理解为了原理对究竟什么是那个真正的共识其实是要深入思考的是的 DeepSick 出圈后呢暗涌有一篇对梁文峰的专访我相信这篇专访很多人都看了我作为一个人工智能的门外汉说实话整篇专访看下来唯一的感受就是第一性原理梁文峰是一个对第一性原理的运用到骨子里的人
这也是可以解释他前面我们说很多的非共识的最核心的那个因素当然这种现象我觉得并不是只在梁文峰的身上看到在很多商业领袖的身上都可以看到比如说马斯克他的 spacex 为什么可以以这么低的成本去造火箭就算马斯克本人是理工科背景出身也不代表他就懂如何造火箭但是
多年的理工科训练,我这里打了一个 maybe 因为我也不能说他的这种思路是由理工科训练带来的让他有源头去思考问题的习惯,也就是所谓的第一性原理那么我们先来简单的科普一下何谓第一性原理第一性原理指的是一种思维方式强调从最基本的原理出发通过逻辑推理去找出问题的本质和解决方案而不是依赖于类比或经验
这种思维方式要求将复杂的问题分解为最基本、最不可分解的元素或原理从而构建对复杂系统的深刻理解还是回到马斯克的这个例子上他是怎么将第一性原理运用在 SpaceX 上的呢?在传统观念里太空探索是超级大国才敢问津的领域高昂的火箭制造成本和一次性使用的模式让商业航天遥不可及
而马斯克运用第一性原理深入的剖析火箭是由什么构成的是由航空级的铝合金钛铜碳纤维等基础材料加上一些必备的技术那么这些原材料在市场上的价格相较于成品火箭的售价相差是数十倍之多的既然如此为什么不能自己采购原料然后自主研发技术来打造火箭呢所以是在这样的思考下 SpaceX 应用而生
颠覆了航天产业格局使火箭发射成本在短短数年内降低了近 10 倍所以这种对第一性原理的深刻理解可以在很多商业领袖的身上看到比如说前不久同样为浙大校友的段永平回到浙大举办了一个讲座
那么在这个讲座的问答环节里其实里面的很多问题都可以看到段永平对问题本质的思考包括他也一直在强调就是看问题一定要去看本质想本质其实这是一个非常高的要求再比如说拼多多的黄峥也是这大校友并且是段永平投资的在为数不多的访谈中他也提到其实拼多多满足的是消费者占便宜的心态所谓五环外的生意
这是媒体的解读什么叫五环外的生意就是说拼多多做的是五环外成像结合布这部分人的生意因为上面东西很便宜比如说什么一两百块钱的电视机这些东西是中产不会去买的大家认为说拼多多之所以能从一片红海的电商中杀出一条路是因为京东也好或者是淘宝也好关注的都是都市白领的电商需求但是对于下沉的
就比如说北京五环之外那个区间的人但是最后发现五环的也在买对所以这就是一个你知道重要的一个认知差就是说大家会认为说拼多多你做的是这一群成像结合部或者是这种现成的人的生意拼多多从来不这么认为拼多多说黄峥自己说的他说我们的核心是满足消费者占便宜的心理不是
不是只有五环外的人才想占便宜的五环内的人也想占便宜占便宜就是一种很大的情绪价值所以这才是拼多多这门生意的本质所以如果假设今天拼多多的竞争对手照着五环外电商的这个模式去拆解拼多多去研究他怎么打的话对不起那你是找错方向了那你跟拼多多的竞争可能就会很麻烦
再比如王兴早年发的很多范讽里面的很多的思考也是闪烁着对事物本质的深刻动场所以虽然我们今天讲的是梁文峰的对于第一性原理的认识和运用但是实际上我想说的是这一个显著的特质在所有不管是商业领袖或者是投资大师或者是很多人他们身上都是一个共同的特质嗯
所以我们还是借着从 DeepSeek 的这个案例我们去聊一聊在梁文峰的世界里哪些部分闪烁着对事物本质的观察以及这种洞察力的背后他揭示了什么首先在暗涌的这篇专访里我觉得记者是花了很长时间的篇幅来讨论为什么一个商业组织要花这么多钱来搞研发而不是应用我觉得记者是在其他所有的读者提问这是很多人都很关心的问题是的在传统的概念里
研发而且是开源的研发意味着天量经费的投入而且是没有产出这似乎是一件不可理解的事那么梁文峰给出的答案是我们看到中国的 AI 不可能永远处在跟随的位置我们经常说中国 AI 和美国有一两年的差距但真实的 gap 是原创和模仿之差如果这个不改变中国永远只能是追随者所以有些探索也是逃不掉的那么在这里面我读到两个信息哦
第一对于记者甚至是对于很多的观众来说一个商业机构投入资金不为了挣钱似乎是一件不可理解的事
那对于这件事其实我的理解是说你可以认为是一个很有钱的富豪比如说古代欧洲的贵族对吧他就愿意花钱去资助一些在当下看起来产生不了什么经济价值的研究啊比如说考古比如说什么什么非洲的某个什么古生物学对吧宗教各种奇奇怪怪的研究你要说非得说他多崇高我觉得也谈不上核心是人家有钱想
想怎么花就是他的事作为 DeepSeek 来说只要股东没意见就可以了而且梁文峰也速度提到他们做这件事情的核心就是好奇在力所能及的范围内花钱去满足自己的好奇心其实这个就跟我们普通人买了件衣服吃了顿大餐让自己开心一样没有任何的毛病第二点梁文峰提到了非常关键的一点他说中国 AI 不可能永远处在跟随的位置与其说这是一种热血不如说是一种趋势的必然
在全世界范围内能够在科技领域与美国掰一半手腕的中国肯定是其中之一啊这就意味着在前沿科学领域中国诞生自己的原创是一种历史的必然既然一定会有人来充当这个角色那为什么不能是 Deep Sik 呢就像班里一定会有一个第一名一样啊那这个第一名为什么不能是自己呢而且梁文峰自己也说了他们又有钱又有意愿又有人才也有算力所以这个决策并不是一枪热血而是
他可能带着某种程度的理想主义但又是非常符合客观规律的一个决策说到这我都很羡慕他了这不是最理想的人生境界吗没错就是这样你看黄峥现在干嘛去了去研究研究生命科学了好像是第三有一些投入现在看起来不赚钱将来未必不赚钱而且是可能赚大钱的所以我们从这个决策本身来看这样的一笔投入首先从财务上来说是安全的
DeepSick 并没有砸过麦田并没有倾家荡产到处借钱来进行这样的研发投入虽然投资巨大但是整体是在一个对他们来说安全的范围内进行的投资并不会对整个团队和创始人的财务带来不可控的风险其次它能满足所有人的好奇心这本身就是一种巨大的成就感或者说是情绪价值第三这件事从成功的概率上也有一定的必然性至少它不会是个小概率事件第一名有可能
今天不一定是 deep sea 但是这相对没有那么的重要为什么觉得相对没那么重要
因为 DeepSick 做这件事不是为了成为第一名只是他们觉得说自己的人才储备算力让他们有机会去摸到第一名但是我想第一名包括 DeepSick 在 2023 年和 2024 年的这两次出圈你要说完全一点偶然性也没有我觉得也不是这样的就包括你说他们大模型的架构的选择其实也是来源于一种偶然所以你想讲的是第一名不是他的目标走向 AGI 才是他的目标
是以第一名的方式还是以第二名的方式这不是他最关心的对我想说的是首先可能第一名这件事可能对于 DeepSeek 来说并不是他们的那个最重要的那个目标但是其实我更想说的是我们从决策的角度来说虽然目前的这个结果带有一定的偶然性但是这样高质量的决策重复的做反复的做它一定会在某个时刻某个领域脱颖而出这是我接下来要说的所以我们从刚才这个分析就可以看下来风险收益比是很划算的
风险可控回报最低能够满足大家的这种探索的欲望并且它还有一些潜在的空间这些空间可能是超预期的所以这就是一个很好的决策所以像这样的高质量决策不断的重复重复次数足够多积累的复利回报足够大换句话说今天 DeepSeek 取得的成功我们虽然不能完全排除它的偶然性但是只要它不断重复这种质量的决策再加上去正确的去做它的事情
不是今天成功就是明天成功不是在这件事情上成功就是在那件事情上成功所以具体的成功有偶然性但是积累下来的成功成功是必然性对这个方向是必然的那么第二个问题 DeepSick 为什么会在 2021 年的时候就有先见之明存储了一万枚的 GPU 我觉得就这个先见之明要打个引号我们从现在后视镜的角度讲觉得它是先见之明是的是的是的
那么梁文峰提到这个万卡的储备它是逐步发生的最早的一张卡到 2015 年的 100 张卡到 2019 年的 1000 张卡以及他们从一开始的托管到自建机房那么后续中美关系的恶化包括美国限制英伟达显卡卖给中国这个是后话了我相信 DeepSeek 包括梁文峰他们在早期的时候也没人能预判对不能预判这个结果
但是 DeepSeek 在这件事情中所做的判断其实是说虽然具体的基础方向一直在变但是模型数据和算力这三者的组合不变特别是当 2020 年 OpenAI 发布 GPT-3 之后方向很清楚是需要大量算力的也就是说万变不离其宗那么既然算力早晚都要解决为什么不早一点储备和解决呢只是后来意外地遇到了中美关系的转折点让这件事情看起来好像有先见之明一样
其实这一点在我们的生活中也很常见有句俗话叫做赶早不赶晚说的就是如果有一件必须要做的事那就不如早做它背后的核心逻辑是不确定性是时刻发生的某些条件在当下成立在未来不一定成立所以对于必须要做的事在当下各方面条件都成熟的时候就不要拖能早做就尽量早做因为你不知道未来会发生哪些变化使得这些条件不成立了所以还是同样的道理
做了没有任何的损失顶多损失一些成本或者是一些时间或者是一些怎么样的东西但是如果不做当遭遇不确定性时受到的负面影响可能会远大于节省的这点成本所以它背后依然是一个决策论的一个问题我觉得梁文峰准备万卡
也不完全是因为做了没损失或者顶多损失一些财务成本但不做会有可能有负面影响我觉得可能还是我们刚才讲到的一点就他他做对了一些事情然后这个事情是他对于这个事情最常见的一个思考就他如果 AGI 这件事是他一开始或者说比较早期的时候就已经笃定要选择的方向的话万卡就是必经之路对 是的
是怎么回事嗯这点无法去解释为什么那么多大厂没有储备大厂难道不要做 AGI 吗难道不要做大模型吗还是大厂一开始只是想卷应用嗯呃其实大模型这条路啊今天就走通或者说这个以 transformer 这个架构为基础的这条大模型最后能够走通是有偶然性嗯因为在那个 CHANGPT 推出它的 3.5 之前就这条路被验证包括 Skelling Law 被验证之前它也是一个
大家觉得离经叛道很疯狂的选择没有人能够赌队就那个时候属于大家都都赌了一些方向嗯但是没有人敢我硬嗯没有人敢再说这个方向上我就把所有的这个资源都压进去只不过今天 opena 做出来了嗯所以后面的人全部跟进嗯 ok 具体的我不懂但是我看到他说的是就是不管技术方向是什么嗯算力肯定是基础事实嗯也就是说我不管我今天压哪条基础方向我都需要算力嗯
所以我在算力上的投资是一个稳赚不赔的这么一个事情是早晚迟早要做的所以应该反问的问题不是说为什么 DeepSick 储备了这么多的算力而是为什么同样做大模型的其他的公司没有储备这么多的算力这很奇怪我觉得这才是正确的问题那难道他是要只做运用吗他不想做研发吗是不是做研发就必须要有算力的储备或者这件事对他来讲有没有那么 urgent 对你说的对
那么第三个问题 DeepSeek 为什么敢用本土的人才来做大模型这件事并且还做成了这个问题我觉得是非常非常的有意思看完梁文峰对这个问题的回答我更加深刻地感受到所有的事情都是相通的如果今天有一家公司它仅仅是模仿 DeepSeek 在这个领域的招人的策略而不能融会贯通整个底层逻辑思维的话我想最终可能是照猫画虎向我者死
那么在这个问题上我们依然回归第一性原理就是回到问题的本质把研究做好的核心因素到底是什么以及经验的具体价值是什么我们先来说说经验吧那么梁文峰关于经验的描述有这么几段内容他提到所有的套路都是上一代的产物未来不一定成立拿互联网的商业逻辑去讨论未来 AI 的盈利模式就像马化腾创业时你去讨论通用电器和可口可乐一样很可能是一种刻舟求剑
以及他说当这个社会让硬核创新的人成功群体性的想法就会改变我们只是还需要一堆的事实和一个过程这点其实我们刚才有讨论过就是说没有人规定美国一直可以做创新中国一直去做跟随这只是一种约定俗成的产物但是没准过了 20 年之后大家就不这么想了嗯
以及它对于技术创新的答案有这么几条第一个更多的投入并不一定产生更多的创新否则大厂就可以把所有的创新包揽了第二我们认为当前阶段是技术创新的爆发期而不是应用的爆发期第三技术没有秘密但重置需要时间和成本
第四,做一件事,有经验的人会不假思索地告诉你应该这样做但是没有经验的人会反复摸索,很认真地去想应该怎么做然后找到一个符合当前实际情况的解决办法那么这里面涉及到几个非常重要的判断第一个是关于技术的第一性原理,技术没有秘密那因为我不是做技术的,我对技术是有天然的敬畏心的但如果这个判断是从一个懂技术的人嘴里说出来我是相信他的判断
毕竟在人工智能领域,现有的东西哪怕再高深莫测,它也是人类做出来的东西,它不是一个未解之谜,只是说从事这个领域的人他肯定是要具备很多超出常人的知识水平,我是这么理解这个事的。所以在 DeepSick 招人的时候,虽然他不强调在人工智能领域的工作经验,但是从来没有说不强调技术水平或者是科学实力。
就拿 DeepSick 的招聘标准来说首先必须是 C9 的院校其次是竞赛能力和科研能力那基本是金奖以下就都不要了吧所以他只是不要经验对他不要实力
第二个梁文峰有一个判断是说目前是技术的爆发期而非应用的爆发期所谓技术的爆发期那我理解就是百家争鸣百花齐放大家的目的地都是罗马但是条条大路通罗马我走哪条路它没有被既定好或者说它还有很多探索的空间谁都有机会所以在这种层面的旷野上经验的确不是最重要的相反过多的经验反而会成为一种束缚束缚自己的想象力
核心是要有足够强的学习能力和想象力而且对于这个级别的选手来说其实大家的技术水平都不会差太多的都是各种金奖得主对吧那么那一点点的关键的想象力可能才是胜负手嗯
这我稍微补充一下因为我觉得这个东西就涉及到一个技术演进的阶段的一个判断因为其实在前段时间的话就是业内有一个说法就认为这个 scaling law 好像已经不那么奏效了整个技术演进的速度已经慢下来了在这个阶段我们是不是应该进入到应用爆发的阶段我们去卷应用了其实是有这样的声音在的但是前有梁文峰然后后有那个明
minimax 的那个 CEO 严俊杰其实也都出来去讲了他们的观点他们两个人都至少在这一点上我觉得是是有他们的共识吧就认为其实现在还是在卷技术的时候 OK 其实还是在卷技术的时候 OK 所以这一点判断也挺重要的嗯
但是并不是各家都这么认为对 OK 所以这一点其实是 DeepSeek 他们选择的一个方向其实换句话说就是他们在这个方向上下了赌注了然后第三个就是投入并不一定
产生更多的创新否则大厂会抱怨所有的创新这是一条逻辑反推嘛对吧那既然大厂又有资源又有人才全世界的生意都应该是大厂的那怎么去解释创业公司的崛起呢嗯
以及选择本土人才只是 DeepSeek 的第一步光有本土人才是不够的事实上我们刚才也提到就是以 DeepSeek 的招聘标准来说即便是本土人才也都是各家大厂争夺的对象相信各家机构开出的薪资都不会低那么同样的原理套用在 DeepSeek 身上也一样就是 DeepSeek 不可能把全市场优秀的本土人才全都招过来
所以在人才密度相似的情况下 DeepSick 还有很关键的一步也就是梁文峰自己所说的如何有效地组织高密度人才进行有效的创新那么专访里给这一 part 起的标题是创新都是自己产生的不是刻意安排更不是交出来的我觉得这句话就是点明了所有创新的最本质的那个东西那么梁文峰自己举了好几个例子啊
一个是他们自己当年从毫无量化经验开始做换方并且把换方做成了头部量化大厂在我们金融行业里面是有北九坤南换方的说法然后他还提到了公司招聘销售两个主力销售
别说经验了,在这个领域可以算是纯素人,一个是做外贸的,一个是在券商后台写代码的而且换方的销售是基本以直销为主,也就是说它不怎么通过券商或者是银行去进行代销这也就意味着换方产品的销售主要是靠销售人员和投资者的一对一沟通来落地这其实对销售人员的经验和资源有更高的要求
而当时的换方他在行业内名气又没有现在这么大处在起步期而且那个时候的量化对于国内投资者来说都是一个新鲜的事物
就是你知道在十年前我们在向投资人去介绍量化产品的时候面临的最主要的一个挑战是什么就是你需要花很多的精力去跟投资人解释什么叫量化它是怎么赚钱的就是还在洗认知是吧是的你可以跟投资人说 OK 量化是用程序化的方式去选择和交易股票那么接下来客户就会问那为什么程序化能做得比人好对吧以及它具体是怎么做的
这种问题其实非常的难解释你比如说像一个主动管理型的基金也就是靠基金经理去依托一些基本面的一些要素去选股那么你可以跟他说由于某个行业基本面的改善某个上市公司业绩的改善等等等等对吧得出来这样的一个投资的策略最终取得了结果但是量化模型本身就是一个黑箱
很多人根本就弄不明白模型的一个具体机制所以是很难就销售人员自己也很难搞清楚更别说去能够去跟客户讲清楚了而且即便搞清楚了也很难去给投资人解释这个模型为什么是这样的因为投资人他也不懂啊他也不懂这些东西所以这就是为什么量化产品的销售是更加复杂的而当时的换方又是一家新公司你总归是要卖产品赚钱的吧
所以按照一般的常理是不是老板更希望就是销售人员一进来你就立刻给我带来多少多少亿的这个资产管理规模呢嗯嗯对但是换方是怎么做的呢就招了几个素人不说第一年完全没有产出第二年才开始有一点成绩但是这完全不妨碍两位在金融销售领域相对陌生的这个人士最终成为了公司主力的销售
所以我这一点真的是太有感触了就是现在的金融机构都恨不得招进来的每个人带资入组只要你一天没有产出公司就感觉像掉了一块肉一样这种所以换方在人才的组织上他并不是说我只有对研发人员是这样我并不是研发人员你们那个自由的去创新而是整个公司的文化氛围就是这样梁文峰说创新需要尽可能少的干预和管理
与之相似的还有一句话听起来就很鸡汤他说让奇迹发生其实你知道让奇迹发生这句话的核心是什么吗我觉得它的核心是你要给奇迹保留一些空间这样它才可以发生如果把所有的空间都填满了奇迹是没有地方去发生的
包括在专访中提到换方办公室中间会议室左右两侧都设置了可以随意推开的门那么换方的工作人员说这个就是在给偶然留出空隙包括前面提到的这个大模型技术路径的选择其实也是来源于一种偶然的发现只是说在偶然发现的同时换方组织了资源去对这样的一个技术路径进行了更加严密的一种实施其实就是大胆假设小心求证的这么一个过程
所以创新是要自己产生不是刻意安排的那到底创新的本质是什么呢你觉得对
我觉得创新的本质它是一种偶然或者用专业的一点术语来说它叫做不确定性或者说是波动你们很金融行业的一个词语没错 是的我自己的一个感受是这么多年下来我觉得他们都是同一件事情在不同领域的各种呈现包括在金融领域里面你的投资其实是要面临一个不确定的市场你是要在一个不确定的情况下去做出一个决策并且最终去拿到成果的
那我说一下我对于创新也好或者是波动也好的一种理解吧就是首先我们要明确一件事波动是我们所处的这个世界的一种基本特征并且这种波动是随机的是不受人控制的就不管一个人愿不愿意喜不喜欢波动都是客观存在是不以人的意志为转移的那么波动它会体现为两件事一种是向上的波动或者是朝着有利于我们的方向去波动在投资里会体现为是收益
在科技领域会体现为是创新在商业领域会体现为是一个从天而降的大单或者是什么样的但是同时它也会有向下的波动那么就会体现在投资里的亏损科技领域里的研发失败商业领域里的可能是某一个风险事件给公司带来的负面影响等等
所以不管是从事什么领域我们其实都会平等的受到波动在正向和反向两个方面带来的影响而这种事件它是随机的是中性的它也不以人的喜好来设定所以在面对这样的一个客观设置的情况下从决策论的角度来说我们要做的事情是让自己尽量的受到好的波动带来的正面结果同时去降低或者是减少不好的波动带来的负面结果
这个部分是通过我们的主观能动性可以去设计与构建的就像我们前面提到比如说 DeepSeek 为什么要花这么多时间和金钱去做研发而不是去卷应用其实我们已经某种程度上解释过了就是失败带来的影响对于 DeepSeek 来说是可接受的但是成就感的回报是确定的同时还存在潜在的更大回报那么再从 DeepSeek 整个的创新机制来说
DeepSeek 抓住了创新很重要的一个特征,就是由于波动的客观存在且不可预测,核心是要留白,同时把握好底线,把握好底线意味着失败不会带来沉船式的风险,当失败可控,那剩下的无非就是成不成功和何时能成功的问题,那么又由于波动它总是会有一些客观发生的存在性,或者换句话说,正向的波动它早晚会发生的。
只是说每一次的成功会带来多大的回报以及成功与成功之间会间隔多久的问题所以从决策的角度这就是一个有足够空间去容纳波动的正面效果同时又能把波动带来的负面效果控制在合理范围内的一种高质量的决策模式
那么同样的原理放在投资里也是一样就是我们这集就先不展开两投资了三开一起对对对以及同样的原理还可以用来解释当下各行各业普遍存在的内卷其实想明白这一点之后我觉得最重要的启发其实关于小孩培养的就是造成内卷的本质原因是孩子的成长路径太一致了路径一致的原因是因为家长把可能的路径都给封掉了
所以孩子的成长路径过于一致选择过于一致就带来了无效内卷其实更好的方式应该是家长给孩子搂住下限的同时让他自然生长然后找到自身的优势去射箭画吧对我们现在的模式其实是把那个靶子已经固定好了我们每个人去比谁能射得更准但是其实最好的方式是你随便射一箭射到了那个地方就在那个地方原地画吧那么永远不会有人比你射得更精准
所以这又是另一个话题了感觉又可以单开一期了就是知易行难我们不展开但是我想说的是这样的一套逻辑或者是方法论吧对它其实在各行各业对它是这样的一个应用的一个因为这就是第一性原理没错是吗是第一性吗其实我现在会不断的反思就是说我看到的东西它究竟是不是最本质的问题它也可能它极有可能不是
前面几点其实我们已经把 DeepSeek 不管是从技术的层面还是从我们背后这套决策的层面已经给他做了一个比较详细的梳理了那么最后再讲个人会比较感兴趣的这么一个问题梁文峰毕业的时候为什么会选择量化作为职业的赛道梁文峰从 2008 年就开始探索 A 股市场的量化交易但是其实回到那个时代如果说投资领域里面有鄙视链的话
其实量化交易处在鄙视链的一个相对靠下游的位置的那个时候是在下游的位置对它并不像今天这么的高大上就是那个时候回到 08 年投资领域里面鄙视链的最顶端是谁呢是公募基金的基金经理因为平台大收入高工作很体面而且每天研究的都是基本面经济的各种各样的数据
量化在那个时候其实是等同于技术分析的就是每天看各种指标什么金差银差就是从本质上来说量化交易和散户们以前用各种技术指标去买股票没有什么不同对
而梁文峰作为浙大的毕业生又是研究算法的其实我相信他当时是有很多的机会他的同学肯定要么也是去外企或者是国内的互联网大厂但其实那个时候国内的互联网大厂也并不是最优秀人才的首选大家是优先会选择去外企的还有出国 08 年对你想想 08 年已经是互联网开始开始但是并不是大家的首选
因为我记得那个时候如果有机会去爱立信或者是去摩托罗拉 IBM 大家是会优先选择去这儿其次才会去什么比如说像阿里或者是什么的我的感受当时就是大家会选的也不是外企是地产公司但是另外一件事还包括银行对不对还包括银行对所以我想但是他选择了 A 股的量化交易这个赛道就应该说在那个时候他就展现了非常好的独立思考的能力
其实独立思考背后就是第一心原理从事物的本质出发去考虑什么才是正确的因为所有的范式都会失效唯有看本质的能力是不变的
那么在看本质的这个问题上我遇到过的不管是创业成功的人还是非常会投资的人在这一点上我觉得他们彼此之间是有非常大的相似性所以在某种程度上我会认为看本质的能力它是不是一种天赋就像有的人的决策水平之高决策水平高来自于他能看本质对啊所以我觉得这是不是一种就是与生俱来的能力就像有的人天生就长得很漂亮有的人天生就
很会比如说唱歌或者是怎么样的就是我一直在想决策水平或者决策能力这件事是不是有的人天生他的认知能力就比较高
不好说我觉得决策这件事有两点第一个就是你怎么建模第二个是你收集来的数据信息我觉得是这二者二者加合在一起你才能够做出高质量决策那认知我觉得是你怎么去建模对吧你怎么理解这件事情但是数据信息也很重要就是你有好的建模但是你能不能收集到
支撑你能够去做出判断的数据也是很重要的所以我会感觉到也许可能在前者里边他是有一些天赋的高低之分的但是后者他不完全是一个天赋之分还是跟你涉及涉及到的一些资源机会层面有关系
我这里再补充一个信息就是我遇到的这些我觉得很会做投资决策的人我发现他们会有一个相似性是他们大部分是从事就是会有比较好的理工科的教育背景
我不知道这两者之间会不会有相关性那就是建模我觉得是在建模能力上很强我觉得不完全是建模因为建模它是一个技术层面的东西但是不不不我不是指投资的那个建我知道不管它是任何领域的建模我觉得建模是一个技术层面的东西是一个怎么去做的问题但是前提是他愿意去看到
底层就是他想去看到更实质的东西他不会被某一些泛式性的东西或者是先入为主的东西去影响到他对事物的一些初步的印象就这一点我觉得是是给我的感受是很深的就是你要看到本质的前提是你愿意去看到本质嗯你会觉得当下的所有人告诉你的东西或者是教科书告诉你的东西是有问题的这个时候你才会去看到新的本质但是如果说一个人他
即便有很好的建模能力但是他完全的相信过往的经验告诉他的东西或者是教科书哪怕是教科书告诉他的东西对我的感受是这样我明白这这一点我是认同的嗯不过我我指的建模就好像今天你去走走通大模型的道路嗯你是选了一个 transformer 结构 ok 选了一个什么样别的那个结构 ok 这个可能你的选择就是来自于你对这个事情最本质的一个动产对对嗯 ok