We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

E1 AI 从业者们聊GPT：大模型的进化、格局和 AI Native 应用

2023/3/30

Shownotes Transcript

大家好,这里是 Alignment 由全球投资平台实相和开源研究平台海外独角兽出品的声音栏目 Alignment 是 AI 从实验室到能为人类所用的必备环节也代表了拉齐、拉平我们主张用开源的研究和讨论精神链接全球 AI 从业者行业瞬息万变我们在这里拉齐认知,抹平鸿沟在 OpenAI 推出 GBT-4 之后海外独角兽组织了一场三小时的闭门讨论会

我们讨论了 GPT-4 和大模型的边界对未来交互方式的改变 AI Native 的应用如何落地还有一些关于 AI 的有趣的非共识我们浓缩其中的精彩内容进行剪辑作为 Aliant 第一期的内容发布欢迎收听

这次我们的主题其实就列了四个 GPT-4 升级我们也在想一个问题就是说现在不管说 JASPER 啊 Copy AI 啊其实还是遇到一些挑战的因为这个通用能力变强已知的能力会接着往强的方向走然后未知的能力会现在在看应该会在多模态上面会不断地涌进所以就两个点一个是算力加强它整个推理能力变得更强一些

第二加了动不太就像加了眼睛整个的符合的能力又会拉得很高有些能力是只有同时有眼睛和语言才能够写的比如说解析集合就必须要同时有两个东西单独哪个都不行这个能力幅度提升能有多大

考虑 alignment text 这样的一个问题比如说我们就说 4 这个模型 4 这个模型放出来的这个模型它是经过了 align 之后的模型 alignment 这件事情本身就是会把这个能力往下面降的比如说在 4 之前必应底下那个比较野的 GBD4 那个 CNN

它其实表现出来的能力要强一截的现在你看到的能力你只会低估它不大会高估它能力的视角它可能会淹没掉哪些东西 OPI 生态的很多的应用是不是依然会被淹掉 90%第一个主题也是讨论边界的问题它的边界到底在哪呢

可以以超過人類最強為一個分界線它的遊戲規則會發生改變超過人類最強這件事情似乎並不是一個無法達到的就是 AI 超過人類最強是有先例的 AlphaGo 和 AlphaGo Zero 都是超過人類最強沒有任何人可以阻止 OpenAI 像訓練 AlphaGo Zero 那樣去訓練 GPT

对现在已经能看到 GPT 比很多设计师要好了营销能力慢慢比很多营销人员好 OpenAI 它虽然没有说它任何的技术细节之前那边 check GPT 大家可能觉得就 OpenAI 是不是踩中了一个 SumWatt Local Optimum 有简单的对话能力的然后大家是不是很简单去超过它第二波就说因为 Motion Learning 毕竟你训练参数其实也就是

那个 Hundreds of Codes 不会说特别特别复杂的一个大的系统工程所以就是说会不会 OpenAI 出来几个人直接把这个模型就 reproduce 出来就技术壁垒不是那么高那这波出来其实我觉得还是还是挺碾压的就是给其他竞争者不是以那么多希望

我来讲几个事就第一他技术博客里讲了就是说他其实内部有一个非常非常 sgatable 的一个 trainning 框架就是 trainning 框架导致了他有一个 predictable scaling 的能力就是说我参数多加了多少然后我这个训练能够无缝无紊的去结束这个其实是很重要的因为其实如果训练过的大模型都知道你这个 data 给进去的时候其实很多时候你不是说就非人去干预的时候他一轮就很难去自己自动去

这是第一点

第二點就是說 OpenAI 這波它在那個文檔裡把它內部所有的組織架構都公佈了就是說它意思就是說我不是說只有一個 Summit 模型訓練組我有這麼多一二三組七八組都有很強的一個分工這是第二點

第三点就是说 LinkedIn 的 Ray Hoffman 他讲了就是说去年八九月份他们其实已经拿到 GP4 的一个版本了就刚才傅瑶也说就 GP4 里边是版本可能能力上比现在更强但他们这几个月做的是啥事呢因为其实公开化一个强大的系统工程在美国其实需要 care 很多的东西能力越大带来的 risk

和挑战也越大就是希望大家不要把这个东西作恶比方说你教我怎么制造一个炸弹或者说你教我怎么样搞一些破坏事情的事情所以他花很多的时间去解决这种东西的风险从这个层面来看还是领先其他竞争对手非常非常多的身位的可能都领先姑姑不少身位更不用说其他的公司了

效果的上升应该就是算力的提升带来的对不对那么这次算力的暴涨是来自于哪里分布式训练带来的它几乎就达出了应该是目前人类最大的分布式计算机群了吧数据量还是客观存在的世界还是这么多数据算法目前看起来从各种论文外来看也没什么革命性的新算法那么下一个问题如果他想追求更大的算力上升就是要做更大规模的分布式

更大规模的分布式就会成成一个问题就这次之所以能做更大规模的分布式训练其实得益于高速互联的网络所以规模增大网络终究是有上限的不会无限暴涨这个问题我最近研究过关于核心网带宽 800T 到 1.6T 的 roadmap 是非常明确的基本上两三年之后就可以换了然后到 3.2T 的话现在有一些 argument 但是肯定也是可以做的了在网上的话

就是看你是要性能还是要成本的因为说白了就是大规模的 AI 集群训练它是一个比以前没有过的 task 就是它是一个非常要求 high performance task 以前你做云计算的话你会考虑成本更多一些成本多的话你可能比方说有一些技术你就不会用但如果以后真的就是只看 performance 的话因为你再大你一万十万颗芯片其实你连起来也不会多多少钱

那么其实后面能用的这个光互联的技术还是非常多的然后第一个是这个光板第二个就是因为的它它还有一个技术叫 Vlink 就是它可以在一个服务器上或者说在一个 pod 里面

用这个比较宽的这个互联带宽直接把芯片连在一起就这个技术他们内部的技术储备也是比较多的 5 到 10 年之内它整个的这个带宽互联不断的上升应该是没有什么特别大的问题 OpenAI 能堆到多少张卡有一个大概它是会无限的往上怼吗或者说会堆到一个什么样的地步微软现在全部都是直接买 NV 的 DGX 就是你可以认为微软的 AI 超算它不是自己做的它是外包英文拿做的

然后英伟达在之前的设计包括 NVLink 包括很多东西其实稍微有一点 tricky 就是他的 Scalability 没有做的特别好那我再给你一个数字就是谷歌谷歌的 Scalability 是可以差不多 10 万张卡 5 到 10 万张卡直接连在一起训练那现在英伟达是 2 万张卡所以我觉得如果他这方面多做一些优化的话估计至少就是集群方面提高个

两三倍三五倍是看得到的然后单卡性能的话现在 H100 其实是可以直接提高五倍的对所以我觉得这个硬件上来说能够提高的空间还是比较高的但可能的确再往上的话就要看后面有一些什么新技术的比方说你这个芯片间的电互联改成光互联 NV 在美国也投了一家做这个光接口的公司对我觉得这块的技术储备还是足够的对

第一个问题还是在谈论这个 GPT-4 的这个能力的提升了因为我自己用了一下我的感觉就是说它在很多已有的能力上其实是做了很多就是延续性的提升不管是逻辑推理能力的增强啊然后包括就是说开放性的这个问题的这个回答这个语言这个效果更好啊

然后包括就是说对这个视觉的支持啊但是我自己感觉就是没有太涌现出一些就是 0 到 1 的新能力啊就是这个我还挺好奇就是大家有没有感觉到就是什么能力是就是比较偏 0 到 1 的原来 3.5 是完全实现不了的然后在 4 上实现了包括 Vision 其实是就是原来有专门的这个就是 Vision 也都能做到只是他把它拼到一起了

所以说我觉得这也不能算是涌现了什么是 0-1 涌现出来的我还挺好奇各位怎么看的你现在用并或者是 GVD4 其实也可以换 SC2 的图片了就是它把成人图片实际上没对你开放但是你可以用 SC2 的码去画图片了如果 0-1 的话它就是这个字数长了八倍对吧有大家没看到的一个东西吗

我从自动驾驶的角度就是原先这个自动驾驶更多的最早就是 CNN 这样的我见过一个东西然后我识别出来后来到特斯拉的这种就是我没见过的我可以用战友网络到现在呢就是说如果加入像这种圆模型的这种模式的话就是一种多模态的这种模型它可以就是说我对于

更深层次的语义有一定理解了就是说我见过这个东西或者说没见过的这个东西我觉得它比较危险我就可以提前躲开就像比如说这次展示的那个图片就是一个车后面有一个很奇怪的一个就是类似小丑一样的那种角色那这种时候我遇到一个这种比较奇怪的它不符合我们通常认知的一个东西我就可以更提前的避开就这种能力其实是这种多么泰模型赋予的

另外我还想讲一个刚才福耀博士讲的东西的一个延伸就是说我看到 GPT-4 的整个的一个技术文档当中还提到了一个合成数据的一个应用就是它在解决封闭一些领域的这种 hallucination 的问题的时候它就是说它自己可以给自己去找问题就是说它可以比如说自己写一个回答然后它找的

让自己来找出这个回答当中 hallucinate 的地方就这个自我迭代的能力我觉得是非常重要的就是他找这个能力一旦超过人就可以踢掉很多的这种原来的这些数据标注了那等于说他自己就往下一步自己去迭代其实从某些能力点上真的是已经超过了七八十的人了但就看我们怎么定义超过很多人觉得这个

4.0 没有太多的惊喜但实际上在它 3.5 已经解决了补错的这种逻辑问题实际上 4.0 的 performance 是加强了很多

我觉得这恰好反映到 open AI 就是现在它不是一个就是说只追求比如说这东西能做出一些新的东西而是在于说能把已有的领域 performance 进一步加强而很多这些可能在一些比较细节的地方才能体现出来那这个其实是很可怕的就是因为现在要做一个新的

展示一下并不是那么难但你真的把它做好其实不容易所以我反而觉得这是我认为这个 GPT-4 让我自己觉得最震撼的地方就本来应该还挺好的怎么样它还能再好宇森老板提的这个就非常像 iPhone 的升级对吧整个容量不断的变大屏幕变好变薄

然后摄像头也变强其实你说新东西从 iPhone4 发布也主要是那么多对吧但是每次它某些点上还可以做得更好大家都还挺惊喜的

对,这个我也挺同意的,因为其实它难度也不一样嘛,因为其实 GB3.5 你如果说是 80 分的话,因为有时候 80 分到 90 分或 95 分不是那么容易,compare to 比方 0 到 50 分,编辑效应不是那么高,significant number of effort,那我觉得 OpenH 这波牛逼的在于它把这个东西变成 predictable,

就是它内部可能它内部有一个更强的 framework 就是说我需要优化什么能力然后优化到这种能力到这个界限我怎么 evaluate 以及我要投入多少算力它把这些东西都 quantify 了这个能力很强然后另外一点我想讲的因为这次主要解锁了三个能力第一个多模态第二个是这个

提高 Prompt 数量第三个就是说在很多很 hard 的 Task 上有更多的一个突破比方说做那些比较难的题第二个能力我感觉大家没有特别 highlight 就是 Prompt 增加以前是 4K 现在有 8K 和 32K 的版本我觉得这个能力还是挺强的其实大家现在就是你要用 OpenAI 的话 OpenAI 你至少后面的几个接口都没有提供这个 Fantune 的能力所以简单来说你就只能把它当成

通过一个 Inference 也过那 Inference 因为它的 Knowledge 只有 2021 年之前虽然说最近的也有点 Knowledge 但确实是 LimitedKnowledge 所以你如果把它用到 Practice 又要反映现在的情况的话你必然而然可能会通过一些 Prompt Engineer 的方法那 Prompt Engineer 的方法如果说 Prompt 受限的话其实还受限了你不少能力的然后从另外一个角度来说其实之前 ChatGPT Unlock 的更多是

instruct 的人或者说跟人对话的一个能力那对话一定是有 context 的不知道大家看不看《流浪地球 2》就是说当时那个刘德华跟他的女儿吧就是说怎么样给他女儿更长的一生我觉得这个 prompt 能力挺影响是否给人一个一生的就是如果你有一个 unlimited 的 prompt 然后在这个 prompt 又能去 simulate 人的这个人的这个 memory 的话那 ideally 你可能跟一个人对话的话你可以

就是你可以把这个限度无限的拉长那如果把这个能力增强的话你可能能够无限长的时间去对话真正的去模拟人的一些思考或者情感这个我觉得是还是真挺厉害的对

我觉得说到这个还很有意思我自己看之前 OKR 它相对提供 embedding 的那些功能其实之前在 Tech Search 上它的评分都只有 50 多分它在句子上上其实都可以包括 Code Search 它可以做到八九十分你如果把 Tech Search

它真的在 GPD-4 上面可以从 50 分提到 80 90 分了那你实际就说明你对这个知识的理解它生成结构的理解已经超过普通人的一个理性思维的一个能力我觉得这个是比较重要的我是这样看这个 open AI 这回把多模特太打开其实你想想人类学习东西

靠语言学还是挺累的真正的其实还是靠 video 它的信息量是很大的就是你像我以前做这么认猫啊认狗这种东西你想用图片去做这机器学起来确实是太慢了但实际上人去学猫狗实际上是一个时间序列去学的这猫狗不仅仅有形象同时因为时间轴上它做动作姿态什么东西一下就把它学到了

所以我觉得多模态这个路子打开呢实际上你想想现在 NLP 上这个 token 都要差不多学完了嘛差不多数量级已经够了嘛那你还有一个东西你要给神经网要喂新的知识啊这新的知识这个互联网上这图片啊视频啊是大量的

这东西要在里头他真是学明白了的话这个东西肯定是又是一个台阶能上去其实如果要类比的话就很像特斯拉特斯拉一直都只用 Vision 做 transfer

他一直没有用激光雷达其实很大原因我问过特斯拉里面就是因为你加了激光雷达这个 modality 之后其实它原来的那个模型可能 performance 不一定上去反而会 degradate 就是有非常非常多工程上的问题顺着这个编辑这个问题大家有想过说未来这个继续变强之后哪些是大概率受到冲击的哪些可能是还好这个最后会有一些壁垒

它可能会彻底改变人工作生产的很多的模式就想一想 OpenAI 去做所有的考试包括 GIE 包括什么大学生的考试都能考到前 5%现在也能画 PGT 类能做很多事情了很有可能就是在一个组织内部以后你的应届大学生的这个水平可能就是 20 美金一个月就应届大学生以后就只要是美金一个月

然后而且供应可能是无限的大家愿意去多买点显卡首先应该想一个问题就是如果在你的组织和你的公司内部以后应届大学升上 20 美金一个月无限量供应的话你这个公司会变成什么样还有包括很多这个教育你看已经所有的考试全部都考到特别特别好的包括你像他家一些写作文写到四分了就是从这个角度来说已经超越了很多这种接受大学四年可能本科同时教育的人的一个水平了吧

问一下大家一个问题就是说就是讲的大家这个能力就是比方 SAT 这些考试这么牛逼就大家觉得是什么东西解锁的就是因为我听到有两个东西可能一个是这个把这个把这个各种的这种 SUMMAR 的可能是 video 也可能是图像的数据给进去第二个可能是

更有效的用之前那个 training data 以及可能在比方后面 reinforcement learning 的时候更有效的给一些 supervised 的标记所以这个我想跟大家也听大家的一些看法专业和考试之内的能力应该是来源于专业和考试之内的

训练数据就是在 text 的角度来讲的话一个 rule of thumb 是说你用什么东西去训练它它有什么样的能力那在 3.5 的时候你在观察 3.5 的时候你应该可以感觉到它应该是没有在 scientific literature 就是各种各样的论文的数据集上面训过的因为论文的数据集跟其他的这些个数据集的来源和处理方式

有一点点不一样你至于你在爬正常爬数据爬通论数据的时候 21 年之前大家会在爬数据的时候会把那些论文的数据给踢掉因为那些都不好处理特别是内在后面应该就意识到这种东西就不能踢就得把它加进来所以想象 CS 的学科的知识都是从

很多的教材以及 CS 的論文那問你的知識就是從問你教材問你論文它應該把這個論文的這個數據的量進來全網的整個數據加起來差不多是兩個 T 不帶論文的

然后论文的这些个数据加起来的话应该到 100~200 个这个 billion 然后把这种东西放到 Pretraining 最后一个阶段基本上能够把相关的 Domain Knowledge 都给加进来当然可能这个对于那种考考理科的这种会好一点但是你要说什么反律这方面因为反律行业不发论文所以这个应该就是

就是他们还可能还会有一些个其他的这些个专业领域的这种 data 的硕士但是但是专业的知识的话基本上它是它还是一个指哪打哪的问题技术上大家觉得这个东西融合这个

图像和文字它到底是怎么实现的因为 OpenAI 之前也有一些 work 比方 clip 把那个图片有一些打标然后学习方式也不一样图片的信息以及这个图片是只用了图片这个像素的信息还是说这个图片它可能有一些 description 或者有些 label 也需要拿到就这个春天数据的话

其实这也是挺有意思的一个探头点这块我正好碰过所以我给大家说一下感受吧因为我也在做实际的产品嘛出来的能力实际上也是吓着我了挺厉害的就是这个简单的这个 VIT 啊就把这个图片变成 token 呢它只是能够让 transformer 比较容易学到因为 transformer 的学习能力很强嘛但实际上这个图片到底是咋回事实际上神经网还是糊涂着的

比较清楚的呢还是靠另外一个网来做就是个 DiffusionDiffusion 它只是把图和文的关联关系可以通过另外一个网 Clip 它只是个映射但是你让它出图还是有问题的图的质量太差了所以它又要借助另外一个网就 Diffusion 这个网因为它学习的数量很多它学了 14 亿张甚至比这还多的所以它知道这个图是怎么构成是

最后的 loss 是对的所以它实际上是借助了两个网来明白出图是怎么出我看到 Google 已经做这事了你把它 token 化之后这个 token 跟这个自然语言的 token 不太一样因为自然语言的 token 它语义很清楚图像你说 pixel 它有语义吗其实 GPT-4 多模态打开了之后语言和

圖像要混起來與液層上如果能混起來那就是很大的技術突破了多謝多謝江總這個特別專業剛才那個朋友說那個怎麼融合的問題是一定是有圖像和文字的這個對應的關係就像我們做機器翻譯一樣你必須要有兩種語言的這個對應關係現在大家都在說這個大模型這大模型到底我們要解決什麼問題實際上有兩個問題

第一个是解决语言的问题第二个是解决知识的问题语言的问题相对来说解决的算是比较好了我们看到那些超能力还有一些什么可能更多的涉及到是知识的问题就是说我们想做一个大全的各种全世界的知识都能用上在模型里的一个百科全书还是我们只是想做一个

能够理解人类语言模型所以这个参数一直往上调的话到底是为了解决这个百科全书的问题还是解决这个语言的问题所以如果我们是为了解决百科全书的问题肯定是这个参数越大越好但是如果是为了解决这个语言的问题那么的模型可能就能很好的解决这个语言的问题

所以就看大家实际上应用的方向因为一直去追这个能力我也不知道这个能力大家想用来干什么这可能是我们需要思考的一个方向

所以我觉得你要做 AGI 的话,你肯定是支持语言推理,甚至将来你的抓取啊,包括很多机器人相关的这些 task,其实都是可以由 AGI 来做的。就是一个过程吧,就可能现在先是,比方说达到这个水平,然后慢慢的再不断的往上提升吧,对,但如果真的说哪天,它所有的东西都能对了,我觉得这个对人们来说,这个事情想想就有点太恐怖了,对,所以我自己还是希望这个稍微晚点到来吧。

就是你们感觉未来几年有哪些高难度的任务 GPT 最近几年解决不好的除了比如机器人自动驾驶生物之样因为这种涉及到物理物理世界的一些问题这个可能也是定义边界这个问题挺好的一个思考干法说一下我个人观点就一句话就是越越无限游戏的它越不好解决

就无限的游戏永远是在 play with 边界就你不知道它那个它不是为了赢,而是为了不断的 play 下去不断的去制定规则或者在边界上玩在自动驾驶就是这种嘛,就是你永远当然这个自动驾驶算是开放性比较强的一类无限游戏吧就是你永远不知道路况可能会有什么新的东西对,但这个是有点

有点牵强的但大概是什么意思其实现在 GPT 是可以创造突破边界的无限游戏了比如说就在游戏里面去做新的 NPC 可能也是之前没玩过的很多东西大家有没有试过用一些职场上这些勾心斗角权力斗争之类的东西去问你会发现 CHAT GPT 这种耿直的小伙子在任何的职场距离都活不过第一级

说一句就是关于勾心斗角的这件事情当然取决于什么是勾心斗角怎么个勾心斗角我大概是 3.5 出来以后大概这是两个月前吧在一个蛮大的一个群就是平时讨论的问题都是一些职场怎么应该去做各种各样的 best practice 其实我觉得这些问题都是很复杂的讨论的问题也是比较 sophisticated 然后大概一个半月前吧有几个同学问了几个问题那一天我就回答了好几个问题

那好几个问题 100%都是 3.5 回答的但是他们不知道他们觉得是硅谷徐老师在回答没有人意识到这几个问题其实蛮 sophisticated 的说老师譬如说我怎么去跟我 skip manager 老板的老板是不是应该去跟他交流怎么去交流其实这些问题并不 easy 然后 3.5 回答的很不错

當然啦我並不是說 3.5 或者 4.0 已經能夠勾心鬥角了但是我覺得不能去低估 GPT 去做這些剛才我們說的是社會的面的東西前兩天我寫了一篇文章就是我覺得 GPT 已經超過了 AGI 我的主要觀點其實並不是說 GPT 有什麼厲害吧而是說人類其實是很 vulnerable 的我覺得我們比我們自己意識到的 vulnerable

即使今天我们在讲话的那么多人平时都是很聪明的然后也是很理性的但你碰到具体事情其实是不客观的再讲一个例子我最近经常用大家都说 GPT 会有胡说

我可以比较负责任的说你去到谷歌的那个 Eastas meeting,对吧?那个皮特柴哥的 Eastas 的 Direct Report 的 meeting 里面去我可以保证至少 15%到 20%的话是要么是有益的,要么是无益的可能更多的是一种 human nature 的,而不是说是恶意的但是至少有 15%到 20%的话其实就是 hallucination,就是在胡说八道

這是我的那篇文章的主要觀點所以說我們剛才說到勾心鬥角我覺得不能低估模型的勾心鬥角的能力

关于勾心斗角这个问题它其实是 alignment 的一个很大的问题就是我们其实有过实验让模型去做一些个 negotiation 的 game 然后让看模型能不能让它的画数变得更强变得更有说服力这件事情在模型这边其实非常轻松就可以做到它有没有勾心斗角的能力它是肯定有并且应该极强

所以在这方面其实讨论的更多的问题是如何让他变得更加的 honest 如何让他变得更加的诚实然后更加的坦诚然后不要去搞这些

然后这个其实也是被观察到的一个现象就是现在模型它看起来比较直男其实是被调出来的结果就是它的创造者们就是专门希望它就是呈现出来这个样子就是看起来比较恶蠢的样子而不要就是

有这样的就是 negotiation 或者是 strategic 的这样子的 discussion 这样的能力它是被人故意的往下面打压了非常的多之后现在大家看到的结果接下来那个问题也更有意思就是那个

AI Native 的 app 未来会长什么样我不知道大家会怎么思考老套的思考方式就是说你看 PC 到 Mobile 有哪些变化第一个是 location 有地理位置之后有滴滴 Uber 然后默默美团外卖很多有了音频输入有了视频输入 camera 有了短视频有了直播

有了移动支付然后而且手机有一个很大的作用是把 user base 给扩大了 5 倍 10 倍因为以前 PC 可能就国内可能 2 亿用户对吧那 mobile 用户现在到 10 亿用户了对吧 user base 扩大了很多然后还有其他几个属性

那你说现在 AI Native 到底的关键生产要素应该是什么呢最开始大家是看到了像 Jasper 这种生成能力非常强的对吧那现在又看到推理能力又非常强的那理解能力也很强后面又多么太能力大家怎么去思考这个 AI Native 包括大圆模型带来的这个未来应用怎么弄有没有看到好的例子大家过度依赖

OpenAI 的模型以后我们应该构建的壁垒是什么就是刚才提到比如说我们大家都在接未来都在用它的技术了能力上都基于它了那我们额外是啥你要不要干一些脏活苦活 Uber 一样管车对吧我像 Airbnb 有方圆对吧或者说我有一个形成的网络效应最后可能还是说你细分场景的数据或者是细分场景的这个规则足够复杂这时候还是能够扎下去所以我会个人会觉得就是说如果

以及一些浅层的比如说 prime 的去组合应用的话那可能是短时间会被超越的但是快速拿到新闻场景的业务理由或者是 know how 或者是就拿到这种人可以理解 knowledge 还有就里面的各种数据能够做出一个新闻场景很好用的东西我觉得是一个方向

我的一个感觉可能未来是多种交互方式共存以及这个交互的方式更宽广这一波我觉得更多的解锁的是它一个很好的一个对话能力以及很好的一个推理能力但我觉得本质上还是说它集合了世界的海量知识能够更好地去利用我觉得从技术方面来讲对于现有的技术战的冲击可能会比较大对我再讲一点突然想到我觉得 AN Native

还能影响现在创业公司的人员架构因为企业来说最重要的尤其早期公司人员的成本人员多了可能交流的 cost 就会多对于现有的一些公司是不是有的大数据 model 很多

就是做一些边角料的事情的那是不是可以去优化掉整体提升整体企业的一个执行效率等等所以我觉得在优化整个企业以及 educate 整个企业的员工采取一种更高效的方式工作上这也是一个极其大的一个工作方式工作效率的一个改变

这个我也补充一下我觉得就是 AI Native 在这个时代第一就是你看以前咱们都是写程序其实那可能接下来可能就是全部都数据或者信息流的信息的这个驱动这是对整个这个产品的设计那个系统的设计可能是很不一样的就是说你是一个数据流在驱动的整个

整个系统在转而不是以前是写程序一步一步的去第一行干什么第二行干什么第二从这个用户交互层面呢以前都是表单式的这种这种这种交互嘛对吧那表单式的交互就是说你的能做的交互的动作一定是非常高频刚需的对吧

接下来有这种对话流其实会解决的就是会变成一个低频的长尾的这种交互都变得可能因为它并不需要设计一个固定的表单而都是通过这种对话的形式所以每一个产品里边至少得有这里后端是数据驱动然后前端是有加入这种长尾式的对话流的这种交互方式

然后前面有一同学提到就是说从公司组织架构这个仍然匹配肯定相对应都会有这个比较大的一个变化公司其实上流程是用来保证短板不出问题的但如果短板都不存在了那其实整个流程在不在也可能就不一定了你产品经理很抓狂就是你天天要跟工程师讲这讲那工程师不能理解以后就有一个 AI 他特别能理解做的东西还特别好

我昨天晚上跟别人说非工程师的时代到来了因为很多工程师不太会自然语言我们今天看 AI native 的 app 是什么样的我觉得我们刚才也谈到生产 app 的过程可能会发生一个 totally 的改变

原来最早 Copilot 出来的时候我自己觉得那个可能没有太大的颠覆性是因为其实编程语言这件事情可能大家就你去写那个代码写某一个小代码的时候可能这件事情它的难度比较低但我们都知道就比如说像我没有学过就不是工程师就不是计算机背景的人它的那个

思维就编程的那个逻辑思维其实是更难的而不是我具体我比如说我想表达这个这个点的时候写什么代码更难那我们今天看到的是我们可以教 ChatchP 去学习这套逻辑思维整个你去告诉他我今天就想生产一个什么样的一个 APP

一个生产一个什么样的软件但是这里面可以拆分成比如 UI 的界面业务逻辑然后后端的什么数据库 API 的连接然后甚至是比如后端那些运维环境但是这里面有一部分问题已经在过去被比如说上一波的 SaaS on SaaS 的 automation 的东西然后 API 的连接然后包括自动运维那些东西解决但我相信就如果你重新定义整个生产流程把这个东西定义得更清楚然后你只要把方法论交给 HHBT

他就可以去实现一整套的那个生产逻辑所以我们今天且不说未来的 AI Native 的 APP 长什么样子就是我们重新生产的那套流程可能都会发生变化那这个时候生产出来的东西我相信会比原来更多元化因为原来在编程语言的那个情况下你的那个能生产出来的种类方向其实是比较可框定的就原来

SaaS 的那个时代可能就可以穷举出来一些场景然后低代码无代码的那个时代

相当于是把可以做的东西扩大了一倍然后今天在 AI Native 的生产环境下可能我们所有能做的东西可能会比原来扩大的那个技术扩大更多很有可能那个 Native 的 application 不一定是我们认为的这种 SaaS 或者说什么而只是那种 Personalized 或者说 Customized 模型每个人都可以有自己的有自己 Custom 模型甚至于每个人有不同的 Temperature 的模型

可以扮演不同的角色也可以这要从硅谷的角度来看我觉得绝大多数的 Fortune 500 财富 500 的公司它的数字化能力其实要比

Google Facebook 这样的公司内部的管理各方面能力其实要差可能一个数量级吧就使得数字化是不是写程序我就写程序只是一个过程而是说结果结果就是一个数字化的能力数字化的水平可以提高个十倍百倍这个是我觉得是一个好像我能够看得到的

这公司蛮有意思的其实这个我们觉得是已经接近有 AI Native 一个应用因为它是介于娱乐社交和游戏之间的一个东西而且 Owen 自己的模型我觉得有一个比较让我出动的就是 AI 最近劝说了一个马上要退学的

这个学生他说你不要退学然后他讲了很多道理最后说服了那个学生没有退学我觉得这个是让我们用户访谈里都比较惊讶的一个点这就是我前面说的我不觉得大家应该去低估 AI 的共情力这一方面超摩尔定律的 performance 的发展我觉得是应该能够跟人类一个级别甚至于超过人类这个级别

首先第一个就是那个 Notion AI 它是可用到可卖做的还不错的嘛有 1000 万的 AR 然后像微软前几年发布那个 Copilot 说实话是 demo 不错但实际上效果怎么样不知道他们现在还在跟那个 20 家客户在共创嘛除了这两个之外还有那个 Jasper 除了这几个之外其实没有什么特别好的

案例出现或者说现在 95%都是 MVP 的产品只有 1%甚至说没几家产品到已经到了商业化规模化特别好的那个阶段了这个是一个然后我自己是有一个假设的就是这些如果产品能做好它有什么特点

这个是我分短期和中期去看我认为它应该会有三个特点第一个是它不改变原来的使用习惯代表着它的替换成本就会比较低第二个特点就是它确实能够解决一个比较痛的问题或者说是不太痛的问题但是有多个类似小场景的叠加来提供最终提供比较大的增量的价值第三个的话就是它的定位一定是做 0~70 分 0~60 分的事情

是一个助手辅助的定位不是全面替代你像 Notion 它其实完全符合这三个特点就是不改变原来的习惯然后它也提供了一些比较小的价值但是它的场景比较多再加上它的交互也比较轻便就能够让人用得起来然后像 GitHub Copilot 就是去写一些小模块的代码快速完成 0 到 60 分这个其实是可以的

我觉得 1 到 1.0 阶段能够跑出来的这些 AI 产品我觉得是符合这三个特点的国外现在 AI 机器的公司排行差不多有 610 家然后 AI native 的 APP 一定会从这 610 家中跑出来肯定会有个个更多所以我的一个思路就是怎么去大概猜出来 AI native 的 APP 会长什么样就持续去跟踪试用

这些 AI 技术的产品然后从中不断的去获得启发除了因为我觉得像客服 SU 写作儿童陪伴心理咨询员工服务这些还有一个就是我觉得输入法这个品类可能也会发生一些变化

因为我们现在所有的内容的输入都是脑子里想然后通过键盘打出来的然后我看到国外有一家输入法公司他就是把 AIGC 的能力给接入进去根据你以往打出来的字你就不需要输入 Pront 了然后他给你自动去联想如果最终要真的把这个应用用起来现在还存在一些问题首先第一个可用到可卖真的是存在巨大的鸿沟现在好多产品都是 MVP

然后我也买了一些产品去试发现那些产品其实能够非常快速的完成零到六十分的事情但是我怎么从六十分输入到九十分说实话我不让他搞还有一个问题就是有一些产品使用感还是比较割裂的很多软件可能就至少在五年之内

可能就是你自己还是要去 build 的一个模型对吧像微软它就有一个类似这个 knowledge graph 的这样一个模型可能我要把我这边获得的一些业务的数据或者商业的一些流程我先通过这个模型 fusion 一个 prompt 然后这个 prompt 我输入到这个大模型里面然后它的输出可能我再用一个模型去做一些 filter

我觉得可能这个就是一个中短期的或者说中期的一个未来的 AI Native 的 App 我个人认为可能它的 Architecture 就应该是这样子那么长远来看我觉得就比较难想象了因为我们一上来就讨论其实 OpenAI 你光看硬件加上它的算法模型的迭代包括它现在如果能够有 10 倍的人力它本身这个模型 10 倍百倍千倍的能力提升是能看得到的就刚才您提到很多问题说它现在做很多事情对 Middle Journey 画个图可能只能到 60 万但是

我有个朋友在 OpenAI 做这个就是做 multi-modality 就是做大力类似的跟我说今年他们会推一个反正吊打 Stability Fusion 的东西就我觉得大家可以拭目以待那随着这个模型本身能力就至少按照奥特曼的说法每 18 个月提升两倍我觉得这个至少再延续个

未来的十年应该问题不大吧那么到了那个时候我觉得很多 AI Native 的 App 就我们今天看到的因为毕竟 OpenAI 做的这个东西包括 GPT-4 我觉得只是一个中间体对吧那我们要想如果它这个东西最后真的能够做到十倍一百倍甚至一千倍的一个优化它到底最后是一个什么样的东西我觉得这个想想还是很大的一件事情有可能考虑这件事情也不能只盯着现有的这个用户因为说实话就每个人他在做生意的时候他会盯着现有的用户和

过往已有的经验但是其实另外一个考虑点是在当前 Mobile 的时代有哪些用户比如说很多老年人我已经见过的他没有办法使用那随着对于自然语言的理解他能不能够开始使用你的服务比如说打车老年人打车软件根本玩不明白的他是不是在有了这样的理解之后直接把目的地告诉 AI 就能打上车其实完全不同的一系列的用户

會因為這個技術的改變來加入到這個生意當中

OK 那我们聊一下下个问题吧因为我们看到美国有几个公司不管说 Mid Journey 包括 character 包括国内也有大家都 own 一个自己的不算很大的模型但上面都去做应用了那么从长期来看大家怎么来思考这个关系呢有几种假设第一种假设可能概率还挺大的就是 open-ed 的模型未来能力会非常强就是他现在从一

可能马上提到 30 了 30 倍的提升那最后你发现这些小模型的迭代速度跟不上了 gap 会拉的很大围绕 openAI 生态的应用这有可能效果会碾压掉独立 Owen 模型的但有的人也觉得说我应该持续 Owen 自己的模型然后先把应用做起来做起来用户 base 有一定规模效应网络效应因为很多公司还是做应用的就是

但模型未来又是应用的一个非常非常关键的能力那这个问题大家怎么思考呢就是是 OpenAI 未来都基于 OpenAI 去搞呢还是说会多寡头呢应用要不要搞自己的模型呢大家怎么思考这个问题我觉得以后它会有点像攻链一样虽然以太坊是

最大的那个可能用起来的供电但实际上每一个大的模型会有自己的生态吧他也会用自己的基金啊或者各种各样的方式去驱动自己的业务所以我觉得这可能会很像供电的一种模型所以我觉得还是一个多寡头的模型吧而且大家都会提出一些自己的有优势的地方吧不管说是模型更大还是运算效率更高对吧用更少的数据去 train 还是说我能在某个锤类市场我就做得特别的特别的好的

比如说阿里可以专门说我就在那个商业场景上做的特别的好如果我们去看就是微处理器就是英特尔包括很多家当时刚出来的时候其实英特尔是领先的但是也没有领先特别多你当时每一家公司都有自己的微处理器什么摩托罗拉菲利普英特尔就收敛到最后就只剩这个英伟达一家了就我还是同意你刚才说的就是还是要先把力量给做起来

就是你不管怎么样你有量才是最基础尤其对于小公司我觉得大公司都还好因为本身你有场地你有量小公司我觉得不管怎么样你都得先把量做上去如果你有自己的模型能够帮助你把量做起来就先用自己的模型然后后面再切 OMNI 的模型就好比说你像很多公司比方说像苹果对吧它原来可能也是用比较独特的一个处理器对吧那其实后来也是换成了英特尔当然最近又换成了自己的处理器对

可能你不管怎么样你先把量给做起来我觉得这个才是第一位的我特别同意于思讲的我觉得后面未来不管中国团队还是美国团队可能都会放弃做达摩显示成本太高了微软现在是直接买 DGX 它是个服务器所有的软件硬件然后端口盒子全部打在一起还有个大概六七十的毛利

你现在除了谷歌自己有能力可以去搭一套完全是自己的其他基本上就是直接买英伟达的这个站就整个的这个硬件站英伟达现在很多时候基本上就是在卖数据中心了那这个是非常非常贵的

对吧然后包括你去基于这个 A100 或者未来 H100 就它是一个有点像摩尔定律就是为什么最后就剩一套一家就是你要去追上这个速度你得自己的硬件不断地迭代不断地迭代然后新的东西出来了你整个 infra 可能跟着要升级对 OpenAI 现在能招到全世界最好的人就硅谷最优秀的人全部都想去 OpenAI 那么一年可能就几百个人对吧几千个人然后再去竞争我觉得长期来看可能小公司

自己做个大模型我自己觉得 ROI 应该是算过来首先分析两个概念第一个概念说你做这个大模型的目的是说为了探索这个 AI 能力的天花板还是说为了在你自己的应用落地对吧这两个事情肯定是不一样的如果是前者确实都没必要做了对吧就是或者很难你可能得找到别的更加 scalable 的方法因为它现在就是完全就堆钱堆人对吧

所以你肯定跟不上包括了接下来多模态什么这种再加上什么 action 各种各样的东西对吧那这个算力的成本各种东西都是现在的百倍千倍所以这个肯定搞不了了但是从另外一个角度并不见得我完全不同意你们说那个大家不用做大模型了或者说是像芯片一样我说几个点第一就是说你可以把做大模型把它当做培养大学生

那今天 OpenAI 培养的是哈佛 MIT Stanford 的大学生对吧那很快因为现在很多人调用 OpenAI 我觉得是有应急反应很快很多公司中型公司比如说百亿美金或者是几十亿美金的公司他都会培养自己的大学生的对吧而且他能培养出来他的成本也不像大家想的那么高然后呢他对能力的要求就跟一个公司一样我不可能全部都招清华北大哈佛耶鲁

对吧反而就是很多别的那种大人生对我来说可能成本更低还更好用其实我觉得真的是同样的比如中国可能有 50 家我认为有 50 家他会有自己的大模型至少但这个大模型它可能是基于某一个更加通用的比如说开源的那个东西去 tune 到自己的应用场景所以就是从这个角度来说我觉得肯定不会像大家说只出现一两家大模型大家都不用练了如果是从落地这是第一个

第二个我觉得我们老是把它当做芯片去看我觉得这是不对的因为芯片你想一下计算机的体系结构芯片是最最下面的上面才有什么 OS 操作什么数据库网络然后应用但其实这个大模型它是比较偏上面的它都不一定是操作系统对吧

是它现在很通用但通用它也是在应用层面的通用它不是最下面的东西看中国所有的 BAT 这个字节肯定有然后所有的那个 50 亿美金左右或者 100 亿美金左右的这种公司也会有自己的大模型比如说小红书也可以自己搞一个知乎其实也可以基于开源的大模型 tune 成自己的一个它自己可以 host 的

对吧然后在下面还有所有的这些 AI 公司加起来我就中国你就中国看我认为两年以后应该有个 50 家左右的

拥有自己的大模型的这种能力都会做 pre-training 会做 fantuning 也可以做 SFT 也可以做 IAHF 我觉得就只看中国美国或顶多再看一下欧洲日本这种地方但是我觉得哪怕在美国我也不认为说未来就只剩下什么两三个大模型肯定不是的你像 Amazon 内部对吧一个是商品搜索的一个是做人服务的一个是我们

或者做什么 Alexa 的对吧可能都会有自己的大模型如果你不是说硬要去比拼那个 AGI 的那种能力的天花板这个成本难度没有大家想象的那么高对即使那个与时前面提到的芯片其实芯片也就是在某些场景是 AMD 跟 Intel

那个一龙天下 20 年其实芯片公司很多只是它们的规模远远小那这些成千上百家芯片公司为什么存在其实也是为了那些 vertical 的为那些小的应用场景它有的时候要公号我觉得就 HOWEI 这个点也很对特别细的规模场景肯定是有价值比方说 BioTek

我自己也投了家做 Biotech Competition Model,我认为肯定是有价值的,因为在很多垂直领域,其实 data 不像你公开的去爬那么容易爬,NLP,LMM,就是这种文字或者图片的 task 其实不是特别好能去理解很多垂直场景的关系,我觉得在这些场景肯定是还是有非常多的机会的。

会不会有一种可能就是说我们比如说国内大家都觉得会有很多个我们投了 2 亿美元 3 亿美元最后发现 Meta Google Anthropic 这些那么开源了开源了我们搞半天搞个 65 分的人家开源直接搞一个 80 分的会有这种碾压风险吗这个完全可能就说你我首先不用投那么多钱除非如果你做落地不需要投那么多钱这是我的考虑

核心观点如果你要学 OpenAI 那是那这个钱都不够而且就是我当年我们说那个 5000 万的门票对吧但现在如果说你就比如说我训练一个 300 亿 500 亿的参数我就是哪怕就是像 NotionAI 里面写文案对吧我觉得当然这个要需要证明我是觉得三五百亿参数一年你花个一两千万美金或者一千万美金我觉得也能搞出来

就继续开源的话开发者的这个角度讲他其实最大的诉求就是好用了这个除了刚才于思说的比如说一些垂直行业之外就说在任务的这个难度级别上会不会也会有模型的分层就因为现在大的模型很大的问题就是他确实还是很吃算力很吃数据成本的花费是比较高的比如说一些简单问答什么他可以启动比如说调用用户本地的

CPU 的算力就可以放一些开源的模型出来就包括像 Lama 或者是 Samper Fan2 的 Lama 模型然后可能未来还有很多的开源模型可以跑在本地或更低级别的算力上然后它遇到一些复杂的问题它再放在 GBT 或者是更贵的模型上面这个分层关系我感觉已经是目前的一个现状对于应用开发者来说

就是关于开源我倒是觉得你看有几类开源的这种一类就是这种叫什么乌合之重对吧就是

反正就是一堆人凑在一起说我们搞一个事情这是一种另外一种是依托于某一个大公司的这种开源对吧比如说依托于 Google 或者 Facebook 或者什么或者别的公司对吧我倒觉得这个事情也许可能更靠谱的是后者就是因为它毕竟还是一个系统工程它跟以前的很多开源可能还稍微有点不一样就说

它比较系统性然后它的头目也是比较大然后对长期的规划包括长期的 Commitment 的要求都比较高再加上它还有一定的 service 的这种成分它不是纯粹的一个离线的一套代码对吧就是你可以直接就可以用

所以我觉得可能更多还是看开源的大模型然后我刚才说的中国有四五十家甚至更多基于开源大模型去改对吧能不能做成真的是还是取决于这些大厂在开源这个事情上到底做的多好本身对 Google 来说我一年在开源上在这个事情上搞得他这么痛苦的话他一年挥个十亿美金又怎么样对吧

因为很多人就说这个私有化部署不可能什么很难那导致就是说比如说金融机构他对数据比较敏感对吧或者保险或者是医疗但可能用这个大模型会有很大的问题但其实我这个我也挺困惑的我觉得事实上应该不是这样子因为如果你只是做 influence 假设你这个模型前面已经弄出来了对吧那其实你一台机器比如说那种什么

8 个卡的 8 个卡的 A100 对吧那你不就一个卡有 80G 的内存那你有 640G 的内存 0.64TB 对吧那这种时候哪怕你就是说比如说你的模型可能是 2000 亿的参数就是对吧就 0.2 个 T

然后你再给点 buffer 比如说一个参数就是三个 byte 还是怎么样那也是可以 host 的也就是说哪怕是 GPT 这种 175 个 billion 的参数一台机器八个卡加起来就是 1 万多美金对吧就是 1.5 万美金左右就可以 host 的一个节点就是为啥大家觉得这个事情如此的难呢这是个问题因为从我的角度来说我觉得到后面也不是什么问题自由化部署也会搞

对这个我之前在平安集团做过那个 AI 的产品经历我可以跟您稍微解释一下就首先我觉得如果只是一个模型你拿过来做 influence 的话如果你能够就比较合理的做压缩对吧做优化我觉得的确是可以但问题是你是否要对金融场景进行 fantune 因为你只要做 fantune 的话或者说你要尤其是拿内部的很多的 proprietary data

因为的确就是很多金融你特有的这个数据你公开是不大容易拿到的就应该也不大容易拿到那么你是否要针对这些数据进行重新的训练那重新的训练一般根据规则的话就这些数据也是不能出金融机构的

就是你还是得在金融机构内部比方说这个金融机构的机房里你要搭一个他如果能够训练的场景我们当时也试过就这个还是挺 stress 的对尤其国内来说吧因为平安已经是国内可能 AI 做的最好的机构了对那么其他的可能我觉得这方面能力可能就会更弱一些我们现在假设 Whoever 比如说 Meta 它搞了一个开源的大模型

然后也是有 175 个别年的参数有一个 pre-training 的 model 预训练的模型然后它的能力基本上是非常强的就是底子很好就是有大学生的潜力的其实平安刚才你们讲的所有问题在我看来 eventually 都不是问题为啥呢就是说

比如说我拿着他那个东西我过来我自己去做 fantuning 那首先这个 fantuning 的成本没有大家想的那么高因为你的数据量可能是前面 pre-training 的这个万分之一或者十万分之一大家知道这个算力跟这个数据就是成正比的

也就是说前面可能他花 1 亿美金你后面可能花几十万美金就可以做 fantuning 而且你需要的时间也是很短的而且你也不需要什么 1 万张卡或一台机器把他能把那个模型漏了进去你用两台机器三台机器你也能训练以前制作要用这么多卡很大部分原因就是因为否则你太慢了

或者说那个什么那个叫什么那个那个 batch 太小了对吧比如说我觉得基本上你有 10 台机器 100 张卡你顺便 100 你去翻 Tuning175 个 billion 这个模型是肯定没有问题的所以这是第一也就是说你的数据不会出你自己的网络

所以这是训练然后第二个就是当你把这个模型做的翻调里包括你做什么 RALHF 调价值观各种各样的你都可以搞而且这个东西本质上就是说到后面不会这么难而且这个成本只会进一步的下降比如说明年可能是今年的五分之一后年是明年的三分之一它会这么下降所以也就是说你拿的开源的大模型只要它的基础能力足够好

你去做 fantuningadapt 你自己需要的模型这个第一个不是问题了而且数据也不会出去然后基于这个东西其实最好你真正去做推理的时候你是要做很多事情的因为你要提供不同的接口你要提供包括速度包括什么这种安全性对吧包括你要做很多后处理去处理他的胡说八道让你做很多前处理

防止他回答哪一些问题对吧其实这些东西呢就是反而就是说一个企业我拿了我自己训练那个模型然后呢我刚才说过了其实一台机器巴掌卡你就可以 host 了因为在做 influence 的时候我们需要的这个内层是远低于这个做 training 的时候那个内层的因为你的那个你不要保存很多那个优化的时候中间状态嘛对吧所以就是说基本上你做

做 Inference 没问题而且呢你基于你自己的应用场景可以去做很多输入输出的这个处理然后数据也不会出去这个基本上在我看来就是这么一回事而且这个事情就是发生过在 AI 时代是一样的比如说 2012 年你做个语音识别系统可能就说中国就三四家今天中国至少有二三十家语音识别系统

美团滴滴什么我不知道小红书知乎有没有自己的语音识别系统他都有自己的语音识别系统但在 2012 年的时候我们当时做语音识别系统可能中国就是三四家对吧所以就是说我觉得大模型他也会就我感觉最好也会找到这一步

我同意,就我批评一下,因为的确在我制造,因为平安技术力比较强,我们 18 年 Bert 出来的时候,那部就已经在用 Bert 了,其实也就是开源的,然后可以自己微调一下,甚至做了一个 variant 出去刷那个 Squad 榜,还能刷到全球第一,这点我同意了,只不过就是如果这么去做,那么壁垒在哪里,可能就像您说的,

你像中国给各个金融机构做金融外包服务的这个公司有个几十家上百家对吧就是如果大家都是基于开业的做那 Fantune 其实方法基本上也都是差不多的对吧那么 IOHF 其实方法我觉得最后也收敛的会差不多那么感觉就是就是大公司当然最后可能都会用起来对吧但是是这个第三方服务机构它的这个价值是多少我觉得这个问题可能是要打工好了

对就是壁垒的话对大公司来说首先它就可控了对吧它不用把数据给别人它可以可控会去优化刚才那个推理跟自己的业务流程深度整合所以这个我们都能理解对吧肯定还会有另外一些公司有那么几家公司因为平安是比较厉害的对吧

可能还有很多这种二三线的这个银行它是需要第三方服务的那这些图币的公司它可以去帮这些更加能力没这么强然后呢财力也没那么实因为再怎么样你可能一年还是得花个几千万美金的对吧就是因为你还有研发成本各种成本吧对吧所以就是说我觉得它不会有巨大的壁垒但是就是对这个对这个做第三方服务的创业公司呢我觉得它是可以生成的

我不知道大家会不会忽视一个问题大陆性的具备网络效应和非常鲜发的规模优势就是说它后面的反馈包括你像 alignment 这些东西也都有因为大众未来给它做反馈它也做得更好了就是它会不会整个东西就像一个 social network 一样加强了更多了它不是一个完全的 commodity 而是一个有这种效应的一个东西

我的直觉是说在这种 2C 的对能力要求特别广的它会有网络效应但是对具体的像刚才那个你反而比如说 openAI 可能还没看到这个数据反而就是在这些地方它可能就是垂直数据更加重要在大模型时代开源可能是一个伪命题你看所有的包括在真正的开源时代真正哪个公司的核心技术是开源的其实不多其实或者是根本没有

谷歌也不会把他的 ranking 的那些算法也开源然后包括一些微软也不会把他 windows 系统给开源所以这个涉及到核心的像 openai 如果他成为了他的一个核心他也不会开源的然后剩下的可能就是 tier2 的这些公司会去开源但 tier2 公司他开源出来的这个模型的质量比这个 tier1 的差远了那大家其实其实在 ai 的时代他很多问题可能解决不了大家会

会能够把它的 T2 能够提高到跟天望一样的水平吗这个我觉得是很难的而且在这个开源的时代大量的是这个

可能有一些 volunteer,可能有一些极客他愿意去玩这个东西可是在这个大模型的时代有几个极客能够玩得起这个东西能够再在上面再去做这个 fantune 就有几个真正的 individual 的人能够去给这个开源的大模型做出贡献我觉得也是一个值得怀疑的一个事情

那么大家拿着 Ti2 的模型去用真正能用好吗而且那个涌现的能力能出现吗这个我都觉得那还不如反过来就是比如说这个 OpenAI 有这个 instance 的 25 万美金一年那我可能还不如用它的 25 万美金的而不是自己再去弄一个自己的模型 AI 时代你要想一想可能的确也会有人去这么做吧

只不过就是你能否跟得上因为 K8S 一出来的确国内一下就出了好多好多做私有云或者做云项目的公司那也热闹了很多年但你说到现在这个时候你说

他其实又收敛了对吧你最后发现其实还是大的供应厂商他会更加的去 dominate 这个事情过个一年可能这个我记得当时是哈杜普对吧就搞了呃是雅虎的一个团队搞了个哈杜普那大家不是也可以去呃把那个三价码车基于那个论文去把它做实现然后呢做各种的内容不会说是所有人都去用 Google 的当时不是搞了个什么 app engine 对吧反而就是他把自己那个玩意儿当做一个宝贝一样最后玩 app engine 呢老是不想让大家去

去弄下面的东西所以最后人服务搞得一塌糊涂对吧所以这是第一个例子但是你看它在安卓时代就开源安卓自己有个版本然后外面有个版本 GMS 全家桶给绑在一起所以这个时候它的核心早期可能看起来操作系统是一个核心但后面其实真正的核心是整个 GMS 的这种全家桶的商业变现模式其实现在我们除了像看到 CPU CPU 这样的一些芯片以外

在 FPGA 然后包括 ASIC 特别是低功耗的 FPGA 和 ASIC 这个是有一个很大的潜力去突破的一方面现在 GPU 做的包括像谷歌的 TPU 然后做的训练模型它训练大模型训练之后我们到本地化部署是一定需要低功耗的 FPGA 和 ASIC 所以我觉得在未来的话会形成这样一个格局就是大的云计算中心然后它把大模型训练好然后 FindQ 好了之后然后分布到

这个各个边缘节点然后通过 FPGA 和这个 ASICS 的芯片然后来完成不光只是我们现在看到的这个 GPU 芯片对所以我觉得未来芯片的这个格局上面不只是说像 NVIDIA 和 AMD 这样的公司然后 Google 的这个 GPU 然后甚至可能包括像我们现在国内有的一些企业这个像比特大陆或者说加拿大云智然后曾经做过 ASICS 这个赛道上面比较多的一个延展的一些公司也是可以看对

这个问题我觉得就是你的确是有很多硬件因为我这次也专门跟到美国看了很多这方面底层的硬件就是硬件创新的机会是很多的但是五年之内就是你跟英伟达去比拼软件生态是非常难的

因为你最后还是要解决怎么高效的把这个大模型给落一到这些阴界上去,就是你怎么去优化,怎么去减值啊什么的,像我之前投了一家公司,我自己觉得可能是全世界做的最好的,但也被英伟达收购了,就是英伟达他我觉得他的这个包括比尔代阿里说实话,他最近招了好多好多做这类的人去到英伟达,就英伟达的这个大模型和大模型的这个整个,

Soft stock 的实力我觉得在过去的两年之内是显著的提升的所以我觉得这个也是有助于它进一步的维持它的这个在硬件方面的一些这个优势的地位吧但可能 5 到 10 年之后比方说你摩尔定律真的就是没有办法简单的做一个 scale 之后那么是不是有一些新的这个 stickn 的机会我觉得那个时候可能还是会有的吧一个相关的问题是大家觉得这个未来这个大模型有没有边缘端推理的这个芯片的需求呢

对我会认为还是这个比较有的我举一个简单的例子吧比如说像我们在这个工业领域或者说是你会像这个电力领域假设我们的这个有很假设我们全球我们拿中国来举例吧中国像比如说这个我们有 14 亿人口我们的用电用户的总数量户数应该在 5 亿户左右那么现在的这个潮流调度啊包括 N 加 1 的这样一个潮流计算实际上呢还是基于大部分的云节点和极少量的这样一个边缩计算的一个节点然后来进行支撑的

那么这个呢对于未来比如说数字电网的这样一个智能调度其实是不够使用那如果说把一部分这个边缘推理就大模型我们预设以后然后把这个简单的计算放到这个边缘节点然后把它做成像这个比如说智能电表呀或者入户的这样一个网关对然后让它去完成这个简单的推理计算那么会大幅度减轻我们现在这个云端和这个边缘端边缘中心端的这样一个

计算压力那么这样的话呢在我们这个数据模型的优化和这个调度上面会有很大的一个我觉得是一个质的提升对其实刚才谈的这个端是不是有机会的事是这样模型如果太大放到端这头确实是比较头疼做模型的时候呢这个模型的切开来就是这个是不是这个模型可以跑在两部分但是现在问题就在这儿

大模型大多数内部连接太多了你要把整个模型拆成两部分难度还是有点大

这方面我还不知道有没有研究有人如果研究的话实际上模型照直觉它实际上是模型是中间是存在一个瓶颈应该是有些模型是中间有一个比较窄的地方有部分就在对头算另外一部分在那头算这是可能的

但有些模型这个连接数就太多了所以这个里头的信号就这个数据数据带宽太宽了你说你要把它硬性切成说是这一部分是属于核心那边是外包或者是这部分在端那部分是在云上

这个就还是要看那个模型了现在这个 OpenAI 这个模型我不知道能不能切开来我感觉好像有点难吧我不知道没研究过他和那些 Snap 对他和 Snap 这些公司合作好像就所有的这些公司 Snap 他们都在协议里面确定了你的数据不能回传到 OpenAI 里面那就是代表切还是有可能的对吧

内部会切的,因为很多企业里头它解决的是具体的问题,其实没必要用大的运饭,他们会切一些小的。我再提一个非公司的,我不知道大家怎么看,如果我们做个比喻,现在整个大模型也好,Chad GP 也好,现在类似自动驾驶的 R2,

会不会未来几年还会遇到很多的问题无法导致走到 R4 会有这种情况吗?因为增加时那 1% 2%的这些 Counter case 解决不了我不知道大模型未来会面临类似的问题吗?

其实跟自动驾驶我感觉挺相似的就是监管这些肯定是很大的问题因为他胡说八道然后从这个本质让他能够工作起来我觉得很重要的问题是因为其实就是说大模型最终有价值是能够跟各行各业能够结合起来而不是陪大家聊个天当然这也很重要但这更多是 2C 的对吧但其实它可能更大的价值作为一个技术它可能就是说能够跟金融保险医疗各种各样的行业全部结合起来

科解师我觉得太难了,CNN 这么多年说白了它完全的科解实行你还是没有做得很好,每年 New York civil session 讨论为什么 deep learning 是能 work 的,就更不要说是 transformer base 的这些东西。我觉得科解实行的确是个比较大的一个问题,可能你就 it is what it is,可能你就得忍受人类我们对的就是这么一个大的一个复杂的一个很相当。

对其实我觉得对很多人来说应该花更多时间在可控性上当然可解释肯定就更加可控但是可控倒过来要比较可控并不见得一定要可解释对吧这个我觉得是两回事所以可控性其实会做很多事情无论是刚才做那个 online 的还是说你去做很多实验你保证它在大概率上是你发现某种规律在大概率上是它是可控的

我倒觉得现在的大模型已经部分的解决了可解释性的问题为什么呢就是可解释实际上是分两个层次的比如我们去申请一个信用卡的时候然后我们被拒了然后他会告诉你由于由于哪种情况下你不你你

你那个没有按时还款这是一种可解释实际上在这个大语言模型底下实际上这个可解释性已经能够有可解释性了你随便问一个问题他给你一个答案比如说伽利略为什么是个科学家然后你直接再问为什么他能够把他后面的那些逻辑给你讲出来那些逻辑不就是这个模型给你的解释吗就是说这是比较高层次的一个解释如果大家非得说我要在这个

在那个神经元网络上去解释那个可能我觉得可能是没有必要的至少我们去他给你一个答案的时候他能精确的告诉你后面他给你答案的原因这不就已经是一种可解释了吗这个可解释性我也说一下我的理解就是你工程师或者做结构的肯定是想寻找这个可解释性

否则这个条模型都不知道往哪个方向跑了当然你外围用的时候反正你觉得有道理就有道理但是科技发展里头肯定还是得里头干活的人得明白你不明白你只是外围看它对不对好像有点怪怪的好吧这只是我的一个理解了另外一个我想 echo 一下李志飞刚才说的可控性的事可控性的那件事其实

Stable Diffusion 这边发生的其实自打它 release 了它的模型之后发生的故事基本上百分之七八十都是在可控线上做的文章

是這樣的,其實 SD 因為他對語言理解能力確實有點弱所以呢他出的東西就是這個把控確實太難了所以就搞就大家一直在搞那 prompt engineering 就為了畫圖寫的那個英語的句子完全都不是人能說出來的但是他有時候聽到那個英語的句子他明白他就會畫出來還不錯但是這樣

不是個長期的事啊你每個人想上去畫你比如剛才有人說他用 Middle Journey 畫 60 分那還不錯了那 Stay with me 就是你剛出來的時候只能畫 30 分

但是现在你看涌现出来的这个开源上的很多东西全是在分析里头 latent 里头到底是在干啥事那块他能不能听听我人控制你原来里头的这个控制信号太弱了我搞强一点的然后再搞一个神经网去学会人说的这句话怎么去控制出途

但是它对那个 stable diffusion 核心模型是没有什么修改的它只是改了一个就是说我咋控制你听我的话好吧它就做了这么个事情所以可控性其实是大模型出来 SD 虽然不算很大但是这个模型的能力其实只要你控制信号给对的话它发出来的东西是相当厉害的

好吧因為他畢竟是學過那麼多圖片他知道構圖到底是怎麼回事只是現在用起來比較弱智的就是屬於他聽不懂你在說什麼

你这个问题是说反共识我认为现在大家都叫这个 general AI 就生成是 AI 我觉得这个词是巨大的误导比如说你看最近微软发布的这个 copilot 真正让人觉得很有意思的就是它的分析的部分就是我能基于你过去的数据或者说是你闪在各个 APP 里的数据然后最后能够 aggregate 然后给出一个推荐生成部分非常少

反而就是前面那个分析的部分特别多所以我觉得现在都叫它包括 ChatGPT 本身你为什么就是为什么大家强调它的生成我觉得这个事情也是不对的因为其实你看理解本来就不是生成对吧上下文的理解包括就是你的逻辑就是你跟它绕逻辑的时候它的理解它也不是一个生成虽然因为生成的话你任何一个模型都要做生成的

对吧所以我的意思就是说从这个概念上过于的强调这个生成或者 generate AI 我觉得这是一个巨大的误导第二个事情我也觉得让我觉得很奇怪的就是说比如在中国现在所有的公司做大模型好像都要做一个聊天的应用一样

我觉得这个事情是非常不靠谱的一件事情就是大家都知道聊天在中国为啥不靠谱就为啥大家上来都要去做聊天我觉得你还不去抄 copilot 或者抄 notion ai 就是你的应用场景

同意,特别有意思,这个生成只是其中一个能力,因为大家都完全只看这个吧,你看国内很多,不管说 VC 也好,媒体也好,主要都是 AIGC 对吧,但其实背后还有很多推理也理解这些能力。对,AIGC 就是一个完全中国的一个 term,就国外没有人这么说。这个不能这么说,你美国也是建 AI 嘛,就 Generate AI 嘛,他也是在强调,就红沙那篇文章一方面把这个给爆火了,但另外我们就误导了整个大家对这个事情的认知。

我们一说 ALGC,我感觉还是放在原有的叙事里面,PGC UGC AIGC,但其实这个是很难想象,非常大的一件事情我觉得更合理的还是 AGL,我觉得就是托资 AGL,我现在是一个初步的形态

E1 AI 从业者们聊GPT：大模型的进化、格局和 AI Native 应用 01:14:57 Share

海外独角兽

Shownotes Transcript

E1 AI 从业者们聊GPT：大模型的进化、格局和 AI Native 应用