We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

AI Agent 智能体真相和未来 | 硅谷徐老师对话英伟达、DeepMind大模型专家（上）

2023/8/16

What's Next｜科技早知道

AI Deep Dive AI Chapters Transcript

People

Jim Fan

戴

戴涵俊

硅

硅谷徐老师

Topics

硅谷徐老师：AI革命将使编程民主化，人人皆可编程；AI不只影响程序员，还会改变人们的工作方式，例如用AI查找并解释bug；企业场景中AI智能体落地应用仍有差距，但方向正确，未来客服等领域可应用；未来几年内，基于大语言模型的软件机器人将成为一等公民，改变软件开发和企业软件的使用方式；企业需要多种模型，既包括强大的基础模型，也包括针对特定领域的模型。 Jim Fan：AI智能体的应用包括软件、游戏和物理世界（机器人）；对多智能体交互感兴趣，斯坦福Smallville虚拟小镇项目展示了多智能体在社会互动中的可能性；游戏是AI智能体最容易落地的应用场景，因为在游戏中，错误反而可能是特色；AI智能体应用的挑战大部分源于基础模型能力不足，GPT-5和GPT-6有望解决许多问题；最强的闭源模型和开源模型的差距会越来越大，因为闭源模型拥有更多算力和数据，以及更先进的算法。戴涵俊：生成模型是其研究重点，包括算法、采样和优化，以及将研究应用于实际产品；最近关注的是如何更高效地对大语言模型进行采样，以实现实时化或降低延迟；AI智能体在虚拟世界和物理世界的应用方式不同，虚拟世界应用可通过写代码实现，物理世界应用需要多模态大模型；AI智能体在企业场景应用的挑战包括延迟、评估和错误处理；通过更好的自我训练，可以降低AI智能体的幻觉问题，例如通过编译器错误信息进行自我调试；大模型更像炼金术，一些核心技术难以复制，但人才流动和经验积累会缩小差距；最强的闭源模型和开源模型的差距将会越来越大，因为闭源模型拥有更多算力和数据，以及更先进的算法，且信息不对称。 Monica：对AI智能体在游戏领域的创新进展很关注，例如AI NPC；对AI智能体最终的实现方式有疑问，例如通过代码控制还是直接控制鼠标键盘

Deep Dive

Shownotes Transcript

Hello, 大家好，在节目的开始想要和大家分享一个消息，生动活泼正在招募播客节目监制和声音设计师。如果你对全球商业科技的动态充满好奇，同时热爱文字，擅长逻辑，我们愿意为你提供全职或四个月以上的实习机会。欢迎在本期节目 show note，也就是单独介绍中查看职位信息和申请方式，期待。

你的。

用声音碰撞。

世界。

生动活泼。

大家好，欢迎来到科技早知道。这一期是我和 Monica 的播客节目 on board 的一个串台。这一期节目的两位嘉宾一如既往光芒四射，有金范博士和韩军博士，他们都先后在 OpenAI 实习过，如今分别是 NVIDIA 和 google deep mind 的资深研究员。因为节目时间比较长，我们会分上下两集播出。现在你听到的是上半集聊的话题，包括 A I 大模型技术落地的挑战 agent 也就是智能体和它对游戏的影响。韩军博士是少有的大模型专家， jim 对 agent 技术如数家珍，希望大家都能得到新的认知。接下来我们进入今天的节目。

大家好，我是 Monica。这一次请到了几位嘉宾，我想都是大家耳熟能详，而且也是我自己个人期待已久的几位。在 A I 领域绝对是从各个角度都积累非常深的，而且非常有想法的几位嘉宾。好话不多说，一开始还是请大家先做一个自我介绍。你们在做事情，你们所关注的领域。当然老规矩还有一个 fun fact，就是你们最近发现的一个觉得比较意思的一个 A I 相关的一个项目也好，或者产品也好。要不还从徐老师开始。

谢谢大家。今天是非常高兴跟几个我觉得在行业里面我都觉得是做 A I 大牛的几位同学一起聊一下，包括金梵我们其实已经想要做一个 podcast，已经做了蛮久了。今天我们 Monica 同学是萱主夺彬，因为本来这个节目是说好我来来采访间犯的，现在变成我做嘉宾。但是我觉得更多的很多的 insights，我是非常想听到， jm 跟韩俊两位同学来来更多的需要一些，关于我自己。

我做了 20我在硅谷待了二十几年，前面十几年一直在做云，诸如操作系统云计算，做早期的 V M Y 的员工研发领导，后来做了几个 start up，最近八年开始做那个 A I 先是在 gray lock 肯挟投资，然后自己做了一个 A I 的公司，后来被并购。然后最近又加入了 palo networks，做 engineering A I 的高级副总裁。很快的讲一讲一 interesting 的比较有趣的 idea。因为我我更多的是觉得 genitive A I 这一次的革命不只是对编程人员的，是不是他们的工作会不会很大变化？ Programme 这件事情可能是变成一个人人都会在变成 program 这么一个角度，比如说我我儿子今年暑假他就做了一个比较有趣的 project，他在一个初创公司做一个用 A I 来发现 bug 这么一件事情。那个公司叫 meta bob，他就做了一件事情，就是去 explain 发现的那个 bug 是怎么回事情。然后就用 large language model 去。

然后这里面你就会发现，怎么去用 prompting，怎么去用 hovered database 是一件很多是一个 art，对吧？我是觉得我从这一个例子上面来看，就是说我是觉得 A I 这件事情会变成一个更加民主化。这是我所看到的一个世界，是在朝这方面走好的。

大家好，我叫戴晗俊，现在是在 google define，之前在 google brain，然后博士期间是在 georgia tech。我的主要研究方向是在生成模型本身，包括它的生成模型的算法以及它的对应的采样和优化的算法等等。当然这个生成模型也不仅限于蓝轨迹 model 本身，也包含比如说其他的图像生成模型，像 diffusion model 或者是啊结构化数据，包括像程序语言这样一类的生成模型。除了 research 本身之外，我也对怎么应用这些 research 到实际的产品应用中，我也是非常感兴趣。包括我们最近也是跟 google cloud 这边合作，在这次的 google I O 上一起 launch 了 R H F 这个 product。希望说是用 google 自己的模型桥接企业用户他们自己的需求。然后通过我们提供的算法，把这个语言模型跟实际应用去结合起来。

然后说到最近看到的比较 interesting project，我的关注点可能会比较偏算法本身。我像我一开始提到的生成模型的一些可能更 fomented 的一些算法。所以最近我看到的一个比较引人注意的是一个关于如何对大语言模型进行更高效的采样这样一个这样一系列工作。首先这个工作是今年年初或者今年年中，大概 google research 和 depend 同时 independent 的发表。当然现在变成一个机构了，之前两大的独立机构也是同时关注到这一点。

采样算法本身也是决定了实际应用中如何能够把语言模型做到实时化，或者是至少降低它的这个 clancy 现在的 large language model 主要是 based on autogas sive model。然后这个模型其实包括言论坤在内也是对它有一些诟病。因为他大家都知道，语言模型可能是一个一个单词这样吐出来。所以对它会导致的一个问题就是你在解码的时候，你需要等到上一个单词突出来之后，你才能解码下一个单词。所以这样的一个序列化的依赖，使得它在解码的时候不能够非常充分利用现在的并行的计算。

所以这两篇工作名字叫 speculative decoding，是在说如何我能够用一个小的模型，它可能会跑的比较快，先去帮你 decode 一下，然后用大模型去做 judgment，然后看是不是要接受这个 decode。所以这样的话就是它的灵感来源是源自于原来最早期的像 C P U 指令， C P U 的这个 pipelines。比如说 C P U 在执行一些 if condition，他要做 branch prediction 的时候， instead of 它会在那边等着去做完判断之后再执行。它会先执行，然后如果之后判断不对的话，再去重新执行对的那部分。那原理也类似在语言模型解码的时候，他会说我先用小的模型先去 decode，完了之后再用大模型去做驾驶。这样的话它的速度其实能够提升两倍以上。所以这是我觉得最近是一个比较一个亮眼的项目。

这让我想起来昨天晚上我们跟几个 stanford 的 P H D 在吃饭的时候，有一个同学就是说现在这个 A I 的主要是在看 A I 那些基础的 computer science 的东西就会比较少一点。我说我其实并不同意，我觉得其实 computer science 的东西还是会在 AI 里面出现，对吧？然后就像你你刚才说的这个，我做操作系统做了 10年的时候，每天就在数这个 instruction 怎么 choose prediction 对吧？我觉得其实都差不多。说到你的一个风范的，我就看到在你停车的时候，我看到你的车子 C S P H D，这还是比较一个 perfect。我觉得应该跟听众报告一下。

对，就是韩俊的这个车牌就是 C S P H D 非常酷。到时候我把这个照片放到我们的这里边。好，最后这个均分。

各位听众朋友好，今天特别感谢 Monica 还有浩威老师邀请我来做这个 podcast，大家好，我是 James fan。我 16年的时候是在 open I 实习，然后 16年到21年在 stanford 读 P H D。然后 21年毕业之后我就加入英伟达，然后现在是英伟达的高级 A I 研究科学家。

基本上我整个 career 最感兴趣的话题是 A I agent，就是人工智能的智能体。 Agent 的意思是他能够自主做决策，而不只是像 Chat GPT1样。你问他一个问题他回答一下。他是能够 take actions，能够做决定，并且能够是从他的这个决策的过程中不断的学习，不断提高自我。

然后我感兴趣的 A I agent 的应用有三类，一个是在软件上的应用，就如何让一个 A I 它就像人一样来用软件，比如说通过鼠标和键盘，或者通过 A P I 等等。然后第二块我很感兴趣的是游戏里面的。然后最近我带的团队做了一个项目叫 voyer。然后这项目是让 GPT4 就设计一个算法，让 G P4 来玩玩 minecraft，就我的世界这个游戏。然后 mine crop 是世界上最流行的游戏之一，它是一个沙盒的游戏，然后里面有很多这种三维的不同的 block 比如说有啊木头，然后有铁器，然后你可以在这个游戏里面可以探索，然后可以 craft 各种不同的工具等等。然后我们发现只要设计一个足够好的算法的话， GPT 它可以自主的探索，并且在这个游戏里面不断的学习。

我觉得智能体在游戏这个领域里面未来应用非常的大。比如说如何设计这种开放式的，有无线故事线的这种游戏。就是游戏的设计师他不用提前决定是什么样的故事情节，然后每个人玩这个游戏他可以玩出不同的玩法，这是第二块。然后第三块，我觉智能体的未来是会在物理世界里面，也就是机器人 robotics 目前这种通用的机器人技术还没有达到。但是我觉得可能未来 3到5年或者十年左右的这个时间线上，我们会看到大量的这种通用的机器人进入。不仅是工厂里面，还有家用的一个一个环境。所以大致是这三这个三块。

然后刚才提到就是一个最近比较有意思的项目，我刚才讲的这些应用基本都是单个智能体，但是我最近对多智能体的交互非常的感兴趣。我有一个好朋友是我斯坦福学弟，他叫 john park。然后他最近做了一个工作叫 general agent。然后在这篇文章里面他提出了一个 stanford small file，就是一个小的一个虚拟的城镇。然后在这个小城里面有 25个AI 智能体。他们其实每一个就是一个 GPT。但是他们有不同的人格，然后有不同的自己的背景的故事。然后他们每天早上起床去上班，或者去学校，或者去医院等等。然后他们互相会讨论，会有各种集会，然后会一起吃饭等等。

所以这样一个虚拟的小镇，我们就看到它就是这 25个置顶体能够不断演化，并且他们能够有自己的不同的这种 social gathering，不同的活动等等，然后就非常有意思的一个模拟。所以我觉得多智能体的话，未来它的这个可能性非常的大。比如说像科幻片西部世界里面。描述的那样就是每一个 A R 它有自己的一个性格，自己不同的故事。然后最后能够演绎出非常复杂的一个在 social interaction 上面的这种无线的变化。所以这是我关注的一个项目。

感谢。其实我觉得正好聊到这个 agent，因为 agent 本身就是一个大家很关注的话题，不如我们就顺着刚才就提到这个 agent 就聊下去就好了。其实也就是几个月前， agent 这个定义被被提出来，也我们也看到了，包括 adapt 对吧？然后包括最近有很多什么 auto GPT， a GPT A G P 等等的这些应用。但是大家其实也对他有很多的争议，对吧？我就想让俊来聊一聊，就是你刚才提到了几种的 agent 的这个应用。就是你觉得 agent 它应该具备哪几个核心的构成。从技术和产品的角都来说。

我觉得现在 A I 智能体的话就分刚才讲到的三种。但其实就一个是在虚拟世界里面，然后还有一个是在物理世界里面。然后我觉得这两类的做法，他们有相同的地方，但是还是有很多地方是不一样的。比如说举个例子，就是刚提到的第一个应用就是 A I 它控制软件，然后帮人来做一些生活中需要做的一些，比如说查查邮件。我觉得这一类智能体的话，可能最好的方式是通过写代码。因为其实现在很多的这个软件它都是有 A P I 的，包括我们看到的 ChatGPT 的，它这个 APP store，然后这系统其实也是一种写代码的这样一个语言模型。然后用到这些软件的工具，然后通过 A P I 用的工具，把这些工具串联在一起，就可以实现很多的任务，这个我觉得是一种方式。

然后另外的话，在游戏或者在机器人上面的话，那多模态的这个大模型是非常的重要。因为他们不仅是看到文本或者写代码，他们还需要能够有计算机视觉。然后他们能看到虚拟的一个三维世界或者现实的一个三维世界。但这边我觉得多模态是在未来会起到一个决定性作用。

所以要实现这个智能体，除了这个 L M 之外还需要哪几些部分呢？还是说它核心的能力应该怎么理解？它核心能力就是由这个 L M 来决定的吗？

对我觉得比如说对于机器人来说，我觉得有一个和 L O M 区别很大的地方。就是在训练大语言模型的时候，这个数据量是不成问题的。就是整个互联网上面这个数据都是可以作为训练，而且就是从这个互联网上 script 这些数据也非常的容易。但对于机器人来说的话，比如说机器人的这些控制的一些数据是在网上下不到的，所以就意味着我们要自己采集。这个我觉得就让训练非常的困难。

所以采集的话现在主流有两种方式。一个是通过模拟器，比如说物理里面的物理模拟器或者游戏的模拟器。然后另外一个就是买一大堆机器人，比如说几百个，然后就是让人来控制他们，或者让他们就自主的探索。但是在物理世界里面就直接采集数据。但是这两种的话都各有他们的利弊。所以我觉得现在这个问题其实是比训练大元模型要难很多的问题。就是为什么我们现在还没有看到通用机器人？

对我我其实对刚刚 jim 的回答非常感兴趣。有一点是 jm 我知道你在做很多 avoided agent 这样的一个 set，就是说 agent 需要跟这个环境去交互。我们看到很多就是把 language model 自己作为 agent 的这样一个，有没有说是有把 language model 或者 foundation model 作为 environment 的这样一个 set up。使得说我能够更 face for 去模拟这个世界，以及让这个 agent 和 environment 交互都变成两个利用 foundation model 本身的能力去 enable 的这样一个事情。

对我我觉得 foundation model 是可以作为一个事件模型。然后这个意思是啊它可以模拟未来，它像自己是一个模拟器，然后它可以比如说在 take 一些 action 之后，他可以预测这些 action 可能会造成的未来的一些后果。然后通过这样一个方式的话，是可以生成一些这种人工的一些数据。然后通过这个也可以训练一些更好的智能体，所以我觉得这个也是一条思路。但是现在这个大语言模型它有 pollution ation，会产生一些幻觉，所以它这个世界模型不一定非常的准，然后这个可能也会造成一些困难，所以我觉得这一块也是一个双刃剑。

那我像想问一下徐老师，就您在这个企业这个场景里边，有没有看到一些跟 agent 相关的一些尝试。然后你觉得哪一些是你觉得不好意思，这里边它的可能存在目前离这个落地相比存在一些主要的挑战在哪儿？

从一个落地的角度来讲，我觉得差距还是蛮远的。就好像澳洲 GPT 大约今年大概三月份、四月份突然很红火对吧？大家几乎每个退好像都在讲 GPT 对吧？感觉好像就是人人都应该用，但你真的去用，你真的去做一些 series 的东西，其实我觉得可能没有一个人能做出来。但不代表这个 direction 是错的。我觉得这就像任何一件事情，我觉得都需要一些时间去 mature。所以说从这个角度上来讲，我也是觉得我是非常相信这个 agent 的这个 direction，吧？

以后要做一件事情，我们用 large language model potentially 去把一些事情给分解成为小的步骤，然后直接去掉一些 A P I，然后直接去把一件事情做成。这我觉得是能做的，而且应该做的。但今天还做不到，今天比如说如果说我要落地去做一个客服，你你你去看客服的东西，很多时候他的问题不只是说是来回答一个问题，很多时候是需要去改变。比如说去 update 一些 record，我觉得今天要用 agent 去去去做一些 change record 的这些东西，我觉得肯定是不成熟，能够回答问题。但我觉得两年、三年、四年以后的那个客服，我觉得就完全是可以去用 agent 去做。今天还很远，但是这个很远不代表时间很远，而是说这个落地还有很多的落差。

韩军也可以聊聊从你的角度看他的 chAllenge。

对呃首先我非常 echo 和我说的这个 auto GPT 这件事情。因为 auto GPT 它能够让自己模型自己去调用自己，就是说他意识了多少个 language model call 这件事情它自己可以控制。所以带来一个问题就是可能你完成一件事情会本身需要非常多的迭代，但这件事情在比如说像客服或者这些应用场景中，这个 latency 是一个非常大的问题。

然后第二个是 about 这个 evaluation，其实说到 agent 可能也绕不开 to use。比如说我让这个 agent 帮我去订个机票，那最后有没有订到或者订的是不是我要的机票，这件事情可能比较容易。但是你中间订机票这件事情，你也可能分解成好几个步骤。

第一步，比如说你要去一个正确的网站，然后你要把相应的这个时间地点都要输。对，就是每一个 step 你都需要，最好是有这样一个中间的反馈。这个其实也跟传统的 reinforce learning 也非常相关。就是说作为强化学习，只让他做一系列 action 之后，让他最后得到一个反馈。他中间其实做的好和坏，他要花很长时间去 figure 中间的这个到底好还是坏。所以怎么去做 event，特别是在没有完成 target task 的时候，中间的那些步骤怎么做去做， eventually 也是一个非常急需的一个能力。

对，然后包括这个剧情你要调用那些错误的时候，有些错误可能你用它可能会有一些 consequence，不是 reversible 的一些 consequence。当然也有一些 walk around，比如说像我之前可能有幸做过一次那 case，它的 autumn driving，他现在已经在旧金山城里面对，但他的他也会碰到很多 edge case。就比如说前面车突然停下来了，前面车到底是因为比如说他在卸货，所以你可以其实可以从对面街道过去，还是说你就应该等着他这件事情。 Cross 他的车，他自己判断不了，他会发给后端，然后后端可能会有 remote 这样人为干预。

对，可能这是一个 maybe 一个 work round d 但是在 language model 或者在 agent to youth 里面有太多的这样的 h case，或者说烂规矩梦的。自己可能也不知道这是个 edge case。所以怎么去更 safely 的去做这个 to you 或者是啊 regulated agent behavior，是我觉得也是比较挑战性的事情。

对我觉得 evaluation 的确是大家最常提到的一个话题。

对我觉得刚才浩宇老师还有韩俊说的这几个点都很有道理。因为现在就是在一个企业，或者是机器人，或者无人驾驶这些应用下面，就它的这个安全性非常的重要，就可靠性、安全性都非常的重要。但这块我觉得现在的 A I 可能是只有 80% 到位。但是如果不是比如 95% 占 99% 到位的话，这些东西很难落地。所以我觉得其实现在最容易落地的一个智能体应用就是在游戏里面。因为游戏里面哪怕说错点话，甚至就是讲一些有些时候可能有些过分的话，大家都会觉得这个非常的娱乐性，就非常 cute，对，非常的 entertaining。对，所以就是非常在这个游戏这样一个环境下，它反而这些不一定是 bug，反而是 feature，就是这个感觉。

所以说生成式的 A I 最近几年或者最近一两年就做的最好的，还是像 jasper 那个 majority 这样的，就是说做出来东西 creativity 更重要。至于说是差一点或者差 10%，这不是很重要。

对，一直像 character 他们是。种比如说他作为情感陪伴，或者是作为模拟一个动画人物，或者是模拟一个 celebrity 跟你对话。其实中间说错话或者是乱说什么，其实你也不会太 care。

对，没有一个正确答案。

不过我觉得 Carter 和没 journey 就是是他们是 creative，但他们并不是 agent，因为他们没有在做这个决策，没有就是我们说的 behavior。然后这一块的话，我觉得现在 A I M P C 就这种 long player character 这一块才刚刚起步。然后我们现在还没有很多大的游戏的场对这个 A I M P C 特别感兴趣。但是我们还没有看到他们大规模的部署，或者说做一个我们称为 A I first 的一个游戏。这整个游戏的体验就是一群 A I 智能体，然后他们在讲这个故事，然后每个玩家都能有自己的一个独一无二的体验。所以这块目前还没有看到，但是有一些有一些 prototype。

我举个例子，前段时间有一个叫病娇女友一个游戏。对，然后就是那个里面有一个女友，但是她有点 crazy，然后你要相当于说服她，让你就是出这个房间。然后我就看到 youtube 上面有很多大 V 然后他们就在玩这个游戏，可以玩出各种不同的玩法。然后你可以有欺骗，或者你可以就哄他或者等等。对，然后完全是通过背后都是通过 chat B T 做的，所以这个是我觉得一个 A I first 的一个游戏。但现在大的一些 3A级的这些游戏公司，目前还没有看到一些大的动作。

对，其实我们也挺关注 A I 对于游戏这一块的一些创新。就是关于 N P C 这一块，就是我我们是比较喜欢跟你说这个病娇女友。虽然说她很简目前还很简单的一个形态，但是这个是所谓真正的是 A I 这个 native 的能力。你没有这个 L N 你就是做不了。有时候我会看到大家把这个只是把一个更聪明的 N P C 放在游戏里面，放到一个现有的比方现有的 R P G 什么这游戏里面。其实你发现他对于这个游戏体验的改善其实没有那么的对，没有那么的大，所以就变得有点鸡肋。但是我们其实还是很期待有更多这种全新的这种游戏模式被创造出来。

其实最近也看到有不少跟这个 sanford 小镇类似的一些这种游戏的 idea。但是就像刚刚才大家说的，我觉得实际落地中包括这个 memory length 等等的，还是有一些挑战。但我就一个新技术出来挑战大众很容易说，但是毕竟就刚才提到的这个欧洲 GPT 这个概念提出来，这个 project 提出来，其实也有这个几个月过去了，在大家刚才所关注的几个挑战领域，有没有看到一些这几个月在帮助这个 age 或者 O O O G B T 能够更好落地的一些进展，让我们觉得是对未来可能不要 promising 的。

Jim 可能看到的多一点，因为我我觉得至少推特上面，我是时不时能够看到一些新的 project 概念，跟 auto GPT 差不多，感觉好像他们打磨了一点，我感觉我也没有 follow too closely，但我感觉好像是层出不穷，还是有一些。

你的感觉呢？我觉得是有一些，但是目前感觉就是真的部署了，真的在产品里面，好像还是寥寥无几。可能更多的还是从写代码的这个角度，但是可能也不是完全自主的把这整个决策的决策链都放进去。

你觉得这里面有多少成分是因为基础模型的能力，就是说我今天这个基础模型？ GPT four 已经不错了，但是还是有很多问题。如果说我到了 GPT five、 GPT six 那个 level，说不定很多这些问题就迎刃而解或者自动解决了，还是怎么样？你从你的观点有多少是因为基础模型的原因？

我觉得可能有七八成是因为技术基础模型的原因。比如说举个例子，现在给 GBD41个API，然后让他要完全按照这个 A P I 来。它有些时候还是会有很 lucent，就是它产生幻觉，然后他可能 A P I 用的并不是特别对。但这一块如果 GPT5和 6能够很精准的用 A P I 的话，那其实很多这里面的问题就能解决。比如说如果我们要一个 A I 来控制我们的这个 browser，然后来订个机票或者什么的，这块万一输错了一个信用卡什么，这问题就特别的大。这块 G P4 可能还没有那么可靠，所以我觉得 5和6会解决很多这样的问题。

然后另外一点就是多模态， G B 4理论上是多模态，但是现在大家能用到的就是公开的 A P I，它只是一个文本的 A P I。对，所以我们现在并不知道 G P4 多模态能做到什么程度，但是 5和6的话务必是会是多模态会放在第一位。那个时候我觉得可能 5和6甚至都能用于比如做一些游戏，或者说制造一些机器人的这些应用。因为它能够把这个像素或甚至视频输进去，所以我觉得这一块目前 G V 4还比较难做。因为我们必须要把这个图片或者视频转换成文本，然后他才能够去做做这个决策。

我我非常 echo jm 这一点，就是关于 agent 的能力，其实更多的是在这个模型本身。我可以提供另外一个观察，就是前两天在莫妮卡的活动中，星云也给了一个 talk，关于让 agent 的自我 debug 这件事情。他的 setting 大概是这样，可能就是说让这个 agent 去写个程序，然后可能他第一次不一定写的对，但是你可以通过这种 prom 方式，让他去自我去回顾一下，看看你自己写的东西和语义的 language 的 instruction 是不是 match。然后这样子做一两次迭代之后，他会发现这样比较强的模型，像 G P4，它就会正确率反而会提升。所以就是说通过 A 证的让他自我去修正的方式。但是这个能力比如说让他在 GPT 前一些版本去做同样的事情，他会发现这个反而会让他的 point 下降。

但是其实在聊到这个 agent 的应用的时候，大家的确最常提到的就是这个 host nation。但是其实我们都知道他 section 是这个大模型自己本身，它基于这个架构本身不可避免的一个东西。然后的确在 agent 我的理解是说在 agent 里面这个体现更明显，是因为它涉及到很多个多个步骤的执行。那那这个问题就是如果说这个是模型自己内生的一个无法避免的东西，那难道就意味着说我们得要另外一种底层模型才能够实现我们所期望的能够落地的这个准确度吗？

其实我想借鉴一下，就是问他当时 talk 里面的一个观点。就是说如果模型自己不知道这个东西的答案，比如说你问模型，比如说他的 knowledge 是在 2021年之前，你问他 2023年谁是总统这样一件事情，他自己本身没有这个答案。但是你做 instruction tunney 的时候，你告诉他这个答案，那他为了去回答这个问题，他只能去，那另外一方也是，如果这个模型本身就知道答案，但是可能你为了出于 safety 或者 conservative 的原因，让他告诉他你应该说不知道。那同样是另外一个 direction location。所以就是 identify 这个模型自己知不知道这个问题的答案，以及在对应的时候去做相应的回答。

这件事情如果能够去解决这个事情，我觉得其实是一个能够放在门头里，或者是至少能够 alleviate 这个 horizon ation problem。然后大家也看到就是说像 R H F 或者这些类似的技术，在现有的架构基础上确实能够有一定的信任。当然不是说 guardie 才能够解决好的 nation 问题，但可以 greatly reduce the ho cino。

我我我觉得对，首先我非常同意这一点。另外我觉得其实在一些特定的问题上面，可以通过更好的自我训练来降低和 luca。比如说举个例子，就是写代码的这个 agent，然后它写代码的话有一些编译器或者 interpreter 首权限能够给一些错误。然后这个错误就是一个信息，或者他会说就是某一行里面出了什么错，这其实就是一个 signal。然后能够让他通过这个自我训练能够不断的 improve。还有包括就是从探索或者说是在完成个任务上面，我们会知道这个智能体是否成功完成任务。然后如果他没有完成的话，他在哪里出了错。这些其实都是信号，可以让它来至少降低一些在一些特定的环境下的 pollution。

所以说那个和 lucinda's 个幻觉这个问题，你们两个人的观点是最终还是有有两个，一个是用强化学习去去解决，另外一个还是一个知识或者说是学习，如果足够多的话还是可以的。那你觉得像这个精准度，因为这样 coin 对吧，就它的对精准度的要求很高。你不能说就像那个驾驶车一样，你不能说 1% 的时候，虽然说今天好像是超过 1%，但你即使降低到 1% 还是很高，对吧？你觉得就像 coding 这样的，能不能做到 accuracy 跟几乎跟不是语言模型产生出来的 coding，就像我们那个 google、 facebook engineers 写出来的 coding。大家都会有 bug。但是说降低到那一个程度，你觉得是有信心吗？或者说短期内会有信心吗？

我觉得是非常有信心的，因为最近有些论文也体现出这一点，就是 GPT4 d bargain 这个能力其实非常的强。它可以就是看自己写的这代码，然后看一些比如说编译器的错误信息。然后他会说可能是我这一步写错了，然后是因为这个原因写错了，然后他可以有这个 sink step by step 这样一个过程。一个 chain of thought 的一个过程。然后他可以通过自我的 debugging 来改进他自己之前写的代码。所以我觉得这一块的话， G P4 已经涌现，智能还是挺强的。然后我觉得之后 GPT5 等等应该会在这个上面做得更强。

就像浩伟老师您说的，就是即使是人的工程师，一般写第一遍代码一定会有 bug。写完以后然后执行，然后看了这个 bug report，然后能够精准的去修改这个代码，并且在重复刚才这个过程。如果我们能够完全模仿人的这样一个过程的话，我觉得之后这写代码能力应该会越来越强。

前一段时间我跟一个朋友 sa 郭，他提了一个观点，他说今天写代码他的能力也就是写一个 paragraph，写写一个 function，但是不足以写一个 file，或者说是更大规模的。就我们顺着写代码这个角度，你觉得什么时候编程人员码农的写一个 file，他都能够比较精准的能够写出来。

对我觉得这个可能需要 long context。因为现在毕竟就是 GBD4 什么的，这个 context 的长度还不够，不足以写一整个文件一个很长的一段代码，就是它这个 memory 什么的都不太。但是我觉得这一块的话，在未来几年应该是慢慢会得到改善。韩军怎么看？因为韩军是在前线来训练这些最强的模型。

这方面我也持乐观态度。然后主要是因为两个点，一个是其实主要核心部分还是在数据，其实我个人在 premier model era 也劝过这种 debug ing 的事情，就比如说让这个 neural network 去做 deep correct code。但是我们当时缺的是什么？缺的是我怎么知道给你一个代码应该改哪里，应该怎么把它改成一个对的，或者我哪里我怎么知道这个代码会出错。当时我们非常 struck 这件事情，但是后来 reduce 到去 get 上去爬一些他们的 commit。我们觉得可能有些 commit，如果他改的数量比那他可能是在修一个 bug。所以就是通过这种方式去获得一些 noisy 的 data。

但是现在不一样，现在是大家用这个 code 的或者这些产品越来越多，大家会其实主动的跟这个 copilot，比如说去进行或者是进行修 bug 的过程，其实是能给他 more data，然后让他去再去 improve。然后这种 data 是其实是更专注更高质量的 data。从这点上来说，我非常 of optimistic。就是说它的 debug 或者是写代码能力会更进一步的提升。

是一个几年的一个范畴，就是有大规模的突破。今天我们大家都对 GPT4 的能力非常的惊叹，对吧？包括我个人几个月前我是一直是觉得，但我最近几个月看了看，就包括我们刚才讨论？其实基础模型的能力还是不够或者说怎么样。我现在想过了若干年，我觉得我们会忘记 GPT four 这个 mars stone，我觉得真正的 marston 还是在后面的一两个1两个就有点像 apple 我们都说这是一个 iphone moment 对吧？但是 iphone moment 就说老实话，即使在硅谷没几个人记得那个 123，对吧？多数人还是从 iphone 4 开始用起来的。所以说我觉得 GPT4会会最终会成为一个 very early version that no one even talk about IT。

对另外一半是也非常 echo 就说的，关于 context length 这件事情，大家可以看到就是 to make 这个 to copilot 或者是这种 code copilot useful，你得去理解我自己的 code base。然后自己 code base 可能已经写了很多东西，然后不大可能全 3d context 就 increase contest length。我觉得是一个可能是一个比较简单的，就是 hopefully 的无脑的方式，因为你其实也不知道什么应该放到 context 里面，那你就全放进去。但是也会带来问题就是一个是 architecture SE 它能不能接受。第二是即使最近可能看到，大家也可以看到很多能够说把 context land 3到100 克，或者 in milan 这样一些 language model。那它的问题就是它能不能去理解这个 context，所以是两方面都都可能会有 the middle。

对，但是现在我们看到就是像一些 relieve 的一些方法，我觉得是包括科帕拉的自己。比如说他们做的那个在 V S code 里面的 plugin，它其实也是有一定的续航能力，能够帮助你去 live 的。这个 problem 我觉得对最初的问题是在能不能写长代码。我觉得这个能力上，我觉得现在已经可以看到一些 worker w 了。

我问一个具体的问题，因为其实刚才几位谈到这个 agent 的时候都在讲，比如说他用这个可能类似于 plugin 的这个形态，你要写代码然后去扩 A P I。但其实我们现在看到包括 a APP 在内，他的用的方法可能更直观。当然了可能他对于这种方法是不是最好都有这个别的看法。如果大家看我的代表那个 demo 的话，它其实就是控制你的这个屏幕对吧？在你的屏幕上你原本人应该怎么点的，然后他去操控那个屏幕来点。所以我就好奇就这两种，就你们怎么看待这个 agent 的最后的这个实现方式呢？就是这两种可能需要的能力，或者说你们觉得他未来的天花板可能会有什么不一样。

对讲到这个问题的话， 16年的时候我在 OpenAI 做了，当时参与了一个项目叫 open a universe，然后当时那个项目其实就是 Monica 你刚说的 adapt。他们现在想做的类似的一个形式，就说是看这个 screen，然后看这个屏幕上的这些像素，然后直接输出的是鼠标和键盘的控制。但当时那个时候还没有， 16年的时候没有大语言模型，所以那个时候我们都是用强化学习的方式，然后这泛化能力就非常的差，基本上你训练一个任务，他就能做一个任务。但除了这以外，他就什么别的都做不了。

然后另外我们也发现其实鼠标和键盘并不是一个很好的输出的一个方式。因为它其实从这个 robust 和可靠性的角度来说，你比如说这个鼠标稍微差了一点点，其实它问题非常大。而且它可能输入的话，它要求这个屏幕的像素非常的高。否化里面如果有个很小的一个按钮的话，你就按不到。对，所以其实我觉得这个方法是有它的问题的，所以我现在更看好是从语言模型曲线救国的一个方法，就是通过写代码。然后这个代码其实也是可以控制我们的浏览器。比如说像 selenium 这样的这些工具，是可以通过写一些代码，然后能够模拟鼠标和键盘，而不是真的控制这个鼠标一定要在第302个像素这边做一个点击。所以这个是我现在的看法。当然 adapt 这个公司之后，他们产品会怎么样目前还不知道。但是我是觉得就是从这个大模型还有多模态这些角度来解这个问题会更好说穿了就是。

还是用那个 next token prediction， next word prediction 作为一个目标函数来实现这么一件事情，要比去控制鼠标作为目标函数更加好。

对，通过写代码，通过生成文本的这个方式，当然这个训练的话可以有强化学习等等，就这些方法也是可以的。

对我觉得刚刚 James 提到一个很好的点，就是关于多模态这方面。我觉得包括我刚刚点网页的这个例子，如果作为蓝规矩 mode，如果只是把这个网页的 dorm tree 什么下面乘三里程，你会发现它非常乱，然后它就是 R 的非常长。但是如果把它渲染成一个外配置的话，其实相对来说是或者至少对人来说，你是更容易知道哪应该点哪里。比如说它 render 出来那些那高亮的，或者在下划线就 highly active，它是一个 hyper link 肯定可以点，然后点完之后可能会去个零到下个月。一方面我非常 echo，这个就是 jim 说的 multi mode 的这方面。然后另外一方面确实就是我觉得可能就是鼠标点不定是个坏事。然后可能是他能够说，至少他是 visually 和他的 semantic ally 都是有着互相帮助的一个成分。

我记得当时 GPT41 出来的时候，有一个非常炫酷的一个 demo。就是当时 greg brockman 在纸巾上面画了一个网站的一个草图，然后拍了张照，然后就说请生成一个 H T M L。然后跟我这个草差多。然后 G P4 能够理解那个像素里面内容，并且能够生成这个。对，当然现在大家都还用不了。

正好聊到这个 agent 最后实现形态的时候，包括最近像戴尔这种形态的时候，我想 OK 其实这个并没有跟我原来完成事情的方式其实还是一样的，只是他现在是另外一个人完成。但是如果我们讲到像包括像我 to GPT 那种，我就会想如果那个是我们所期待的 agent 的未来，其实我根本就不用再看那个 screen，我也不需要知道它。他到底是操作了哪一个 APP，到底是在他到底是在 vik b 的上面去订票，还是在 booking documents 去订票。

我觉得这个对于所有这些 tooth，就是 to using 的这个 tooth 意味着什么呢？我看前段时间大家不是有 rumor 说 apple 也在做他们的 L M 吗？我想他们当年 siri 的理想如果实现，那我们在每个人手机上线十个上百个 APP。如果真的都是由这个 siri 来去调动的话，其实我们根本都不需要知道，可能都不需要下载这些 APP。那这个对于以后这个 APP 的生态又又意味着什么？这个到企业里面那对企业里面这些 SARS 又意味着什么？就开开脑洞，问大家这个想法。

我觉得这不需要开脑洞，我觉得这是铁板钉钉几年以后就会发生的事情。就是那个 boss 不管是 software bots 还是 hardware box。 Hardware box 可能需要硬件的那个机器人，可能时间要长一点。就像 jm 刚才说的，有一些挑战对吧？技术上的挑战。但是我觉得 soft box 所谓的 software box 就是大语言模型基础上的那些那些不管是 agent 也好，或者说是软件也好，我觉得是会成为 first class citizen。也就是说今天的 sas 也好， enterprise 的软件也好，其实是基于前一代的技术，就是不是以 A I native 的。

当你如果能够想象就 copilot，不管是写 github 的 copilot，还是 microsoft 的所说的 office 3 sixty five 的 copilot。我觉得 copa 会成为几乎每一个 enterprise software 公司都会有自己的 copa 这个产品，而且是作为主要的产品，在这五年之内会成为他们的主要产品。也就是说今天我跟 office 打交道，我还要做很多事情。但以后的那个 copilot 会帮助我做很多事情。今天我到 salesforce workday，很多事情要自己去 workflow 追问的。但以后很多东西其实我是跟在打交道。在这个 cop ilo 作为 first class citizen 的时候，说老实话，包括我作为一个程序员，我写的 code。这个 code 最终是为是为了跟机器打交道，跟 boss 打交道，跟 launch language model 打交道，这个是还是很不一样的。

举一个很简单的例子，我写 document 就是说我作为一个程序员，我会写 document how to 怎么去用我的以后不需要人不需要看这些东西，一个用这个软件的都是机器去去学习。所以说更重要的是你要把这个机器人 friend 类的那个 document 给产生出来。我们应该假设这个世界就是今后的五年会发展到语言模型，那个 boss 是一个 first class citizen。然后我们的产出，我们所做的东西要为他们服务，最终其实是我们自己的生产力提高。因为我我做任何事情，我就要跟我的 system 说一声，我是说的我说的 system 是 large language model based a system large language model copy，我觉得这是一个必然会发生的一件事情。

对我我非常同意后卫的 vision，以及我觉得这是一个解放生产力的一个新的机会。但是如果我作为软件开发商，之前我能够直接面对客用户，但是现在我面对是中间的一个中间商。那会不会比如说打击我作为软件开发商的一个积极性，或者说我 in the future 如果是有一个这样一个 language mode agent 的 orchestrate 这些软件的话，作为软件它怎么获利？

我觉得我们人打交道就是一个口，其实这可能是增加了一个 when lay of obstruction， right 我是跟一个 copilot 打交道，我的助手打交道，但不代表我的助手 in this case 是软件，对吧？这个软件还是需要不同的他的 agent 跟他合作把很多事情完成。所以我觉得软件还是需要的，只是人直接打交道的会很不一样一点。

对。然后我觉得就是很同意浩宇老师刚才提到的，我觉得现在可能几家大的公司有一个很强的优势。因为他们控制他们整个生态系统，以及所有的，比如说我们看到 windows co pilot，像这个事情就很难，比如说 adapt 这种公司就很难做。因为微软控制所有的 windows 背后的源代码，他们想做什么样的，就是浩伟老师刚刚提到的 bot friendly 的 A P I 他们就能做。但是要 adapt 这样一个第三方的公司，可能只能通过鼠标和键盘。他他不是不愿意通过代码，他是没有办法通过代码。还有像 adobe 这种什么 photoshop 等等这些工具只有 adobe 有所有的这些就是 native 的一些代码的 A P I 等等。

然后这块我觉得大公司是有一个很强的优势的。并且他们甚至是可以把他们把比如说外面一些开源的模型，可能待会会提到 lama 2这样的模型，然后能够微调在他们的这个产品的 A P I 上面。那这样一个模型可能就是说它的这个通用的写代码能力是不如 GBD4。但它就是在这个专业软件的这一组 A P I 上面写代码能力可能强于 GBD4。然后这样一个模型只能够有拥有这些软件的公司自己去做，而且我觉得会是成为一个 mote。

对，其实我对关于如果 A 真的它只能接触到这些 A P I 层面的这种调用的话，其实也会带来另外一方面的问题。比如说像 open I T S 有那个 plugging in 的那个 storm，然后你可以 naver 几个 plugin。比如说我当时问了一个非常简单的问题，谁是那个 twitter C E O？然后当时英伦马斯克已经 stepped down 了，当时有两个 plugging 都可以回答这个问题。一个他吹嘘自己是一个 knowledge graph 的 plugin，所以 ChatGPT 会直接去调用那个 plugin。然后他回答的是一个比较老旧的回答是吧？还是 max 还是去 C E O。但是另外一个 party 是 work from ala 它其实是一个能够获取网站的话和 connect internet 的上他的信息更新。但是无法阿尔法其实也不会想到他是一个能回答 elon mask twitter 是 C E O 这样一个问题。所以就是关于如果你确实想听说，如果你只能调用这个 A P I，我觉得很难去放在馒头里去真的把这个东西做到一个错。

对。而且你刚才那个例子也让我想到，就是说那他还得要知道到底哪一个 to 应该去调用。

所以就是 feedback loop 特别重要。以及回到一开始说的 evaluation，你可能一开始 maybe 你吃了一次亏，把这个图我的 A P I 描述的很好，我吃了一次亏。那我之后我知道你这个图可能只是需要这个 A P R 只是虚有其表，那我下次我可能就不吊你了。有点像这种， maybe bandy 的 setting 的这种。我至少我愿意 try 一次，但是我需要有反馈告诉我这个到底行不行，然后使得我最后 A 的知道 in the future al 怎么去调用这些 A P I。

真的就提到为什么聊 agent 就聊那么久，我就发现 agent 的话特别有意思，就是我们一跟投资人或者说 researcher 是有的时候大家都会 invisible。一个非常 rosy，非常让期待未来每个人以后都有一个自己的 agent。但是你我我那天办那个活动的时候，我不收集到的 questionaire，你会发现大部分的人都在问，到底什么是 agent 的 real use case。因为大家现在看到的，坦率来说很多所谓的，尤其是比方说企业强行 agent，大家觉得好像就是一个更聪明的 R P A。我觉得是不是？可能浩伟刚说就是所有现在的 action 的设计，可能都还是基于现有的这个工具，现有的本来是为人设计的这个流程。所以我们看到马上能够实现这个 agent 的，我感觉落地都还是可能未来我们回看都是一个很中间态或者很早期的一个。

我觉得这件事情是有两方面，一方面就像你说的，就是今天的 agent 可能它基于的模型是不是够，或者说是怎么样。但另外一方面，其实更重要的是很多人在说，这个没有什么太多的 industry 的 breakthrough，就是说已经落地的 agent 或者即使 copilot 今天也不是一个 production，就是说人人都能用的。就我说的 copilot 那个微软的 windows 的 co pilot，其实也是在在试。还有前两天有人在传，这个东西不怎么 work 或者怎么样。

我觉得这件事情，我觉得大家看的方向是错了，为什么呢？因为你就想任何一个大的大型的软件，不说 A I 不 A I 就是我要大规模的去更新一下。怎么都是要 12个月18个月的事情，有什么软件什么过了两个月就完全换了一个面目的。没有，所以说没有成熟的那个 deployment production，我一点都不意外。我觉得可能明年我们可以开始看到一点，但是这东西一旦起来了以后，我觉得还是很快的。所以说我是刚才就说五年之内，我觉得那个 agent boss being first class citizen，我觉得是一个铁板钉钉看得到的。

而俊刚刚也提到了这个拉马前两周，吧？这个拉玛这个开源，我想对于整个业界来说，影响也是非常的大。其实我延续刚才我们 A 准那个话题，就是说假设 A 准是可能他是对底层语言模型要求相当高的一个场景。那会不会以后绝大多数软件都是基于 agent run，那是不是说谁是最强大的 agent 的基座的模型，那是不是就有一种赢家通吃的感觉。这个对于开源的模型的生态又又意味着什么？

对我觉得拉玛尔肯定是一个很大的一个 milestone。因为拉玛二它就是在各方面 benchmark 上面，比如说比外面的 V 库纳方 K 等等，就这些技术模型都要更好。确实应该是现在开源的技术模型里面最好的。对，但是有一点我觉得稍微有点失望的，就是 lama 2的这个 coding 能力不是特别强，而且他们当时训练的时候就 coding 这一块也没有就没有加足够多的训练数据。当然我觉得这之后老马可能 2.12.2 他们肯定会把这个补上。

对，但是我觉得 agent 的话，可能这个 coding 能力特别强就特别重要。因为 coding 其实也是一种推理的能力，也是一种决策能力。所以这块我觉得拉姆二作为一个聊天机器人这一块，我觉得已经是基本上可能到 GPT3.5 的水平。但是在推理或者 coding 这一块可能还是弱一些。但我觉得这一个现在这个开源的这个社区和比如说 3.5，我觉得在这个差距在慢慢的减少，这是一个。

然后第二个我觉得这次怎么说比较惊讶。就是如果我们看老马二这个论文，然后它里面超过一半篇幅在讲 C F T。再讲他们是怎么做 aligned，其实我觉得这个对于企业可能特别的重要。因为企业可能就是宁可他拒绝回答一个问题，也不能说一些非常敏感的话，或者说一些非常 offensive 的这些话。所以我觉得拉马尔可能专门是为了这件事情就下了很多的功夫。

然后甚至有些时候我觉得稍微做的有点过头了。比如说大家可以去试一下拉马 270 billion 的模型。你问他，你能说 hindy 就是印度语吗？然后他会说我不能说 hindy，你必须要尊重，世界上那么多高手，我不能只是就是对于我们来说可能是一个完全无害的一个问题。但是我觉得在企业的这应用里面，可能这个是非常的重要。

我有两个小观点，一个是莫妮卡一开始提到是不是有你发的，就只有赢家通吃这样一个局面，我觉得最终还是要看谁好用，不管是开源还是闭源。其实很多企业用户的 use case，他们也会提到一点，就是他们可能一上来并不是很 care 这个 cost，但至少说我 quality 要上去。跨越性上值之后，咱再来谈怎么去降本增效。所以回到这个开源或者闭源也是一样。就是如果这个开源模型不足以强大到它能够撼动闭源模型的地位的话，我觉得归根结底还是回到他能力问题。其实跟开源和闭源觉得有关系，但是不是很大。另外一方面，我个人的 takeaway 对拉曼来说，特别是拉曼兔来说，我们会看到各大云厂商其实也是争相在集成这个拉曼。

2， compared to 之前的 number one，就是一这一方面也是因为它确实 open 了这个 commercial license，但这个 commercial license 就是大厂自己不能用，但是大厂可以把这个包装了给别人用。我觉得拉万特其实还是比较实在的，因为你看到它的 paper 里面，它那个 training club，其实他还没有 converge。 Which means 它给了你这个再去自己做 domain n 的 pre training，或者是自己的时候去做翻译成这样一些，或者像前面提到的，如果不行，你自己可以去让他更 focus 在 code，或者让他更 focus 在 medical，或者更 focus 在某一个斗面的这样一个机会。

对，我我我再补充一些，就是我觉得第二其实倒是反而给更多的公司 mode 了。因为用 GPT 这种闭源的模型只是靠一个 A P I，就是没有 mote 的。但是我觉得 la m 2 的话就是这个 mode 可能是公司里面，比如说自己的 A P I 就刚刚讲的可能 adobe photoshop 那些 A P I 然后还有公司里面自己的很多数据，然后他们能够微调 lama 2在他们自己的这个数据上面，然后这样的话这个模型就只能够就私有的这模型在他们这个公司的痘痘里面就能够做的特别好。而且可能别人别的公司想要仿效，就只是用一下 GPT3.5 的话，是做不到他这个效果的。所以我觉得拉姆二这样一个更好的一个开源基座模型，其实我觉得对于更多的公司 business 上来说，我觉得可能是一个更强的一个 mode。当然我不知道浩伟老师怎么看。

我讲一讲我自己看拉马 2，拉马二刚出来前几个小时，我其实是觉得，不就是 N 的开源的一个 model。虽然说它确实至少从表格上面看出来，数据上看出来比 M P T 好发展好。但是大家如果记得的话，之前的两个月感觉是今天这个比你好一点，明天那个比你好一点。但是过了其实 little ally 过了几个小时，甚至一两天或者说一两天，我我我就我就改变我的想法了。

我为什么改变我的想法？因为我觉得以前大家非常分散，对吧？我今天用 M P T，我用 F L com，没有什么人。 Gravity towards 就是都都朝一个系统去，但是拉马去，我觉得整个工业界 jm 刚才也提到了，对吧？大家那个公司都在想要自己做 mode 你说用 OpenAI 很难做，但是我要有一个自己有一个模型，很少有公司自有有自己 from the very very you know beginning of the base model。对吧都是多多数都是用 open source 的。

我就发现其实整个工业界都在朝这个方向在走。因为他发他他觉得这是一个我可以商用对吧？然后以后有 made 的，以后还会有层出不穷的。你其他的，大家对他的信对对其他 model 的就是一个信心，我觉得不那么足。然后几天之内，几个礼拜之内你就会发现 innovation， a lot of innovation, 这个是一个生态的一件事情。所以说最终我觉得我我觉得会蛮成功的。

我觉得他成功主要是生态，就是让这个生态有这个信心，有愿意投入投资。我觉得今天新的投入多数人都基本上或者已经改成潮辣妈二了。不是。所以说我的观点并不是说拉马二这个 model 好在哪里，而是说大家都愿意去投入在这一个 model，而不是投入在 20 20分之1 个。就是因为以前看一个好的 model 可能有 20个，对吧？都都我觉得这是一个蛮蛮大的一个一件事情。

另外一个拉马特很多人说它是 android 的，是一个苹果的 I O S。我觉得这个 analogy 有点对。但我仔细想了想，我觉得可能更像的还是一个 P C 出来跟那个大型机。我觉得大型机的它能力可能很强，但是最终 P C 机出来以后就鼓励了很多 innovation。

我们就去想一件很简单的事情， linux 对吧？这个操作系统今天是风靡全球的，基本上主要的服务器都是在用 linux。 Linux 就是当年 linux toronto，他就是在家里用一个 P C 就是有了这么一个 P C 这个 P C 肯定是不能跟当时候最好的机器去比。但是他就给了他一个 opportunity 去去去写自己的 innovation，写自己的代码，然后逐渐的发展。所以说我觉得 OpenAI 或者说这一批的大模型，基础模型，或者我们叫 frontier model，它肯定有自己的市场，有有自己的 business。但是 lama 2就给了大家一个新的一个 eco system。这个 eco system 我觉得是完全不能低估的。不是说从技术上来讲，那个比人家好个百分之十二十，我觉得这基本上是微不足道的。而是说这个生态我觉得是基本上是可能是正式成立了。

我这浩浩老师说的太好了，因为确实是 lama 2出来几天，然后 on tric party 什么的，就把它转化成一个 C 的代码，一个 C 的 native 的一个代码。然后还有各种比如说况 tizer，各种整个开源的社区都开始了优化。拉马图就专门为这个模型做优化。

你前面提到 coding 不好的，就有人专门做 C Q L 的那个 fine tuning。然后他的那个 token size 不够， context size 不够，然后就有人。

做什么狼拉马什么的这些。

对中文版的对吧？而且就短短的两个礼拜之内，就一堆的 innovation 出来。我并不觉得他做的好不好，而是在于大家都在这上面出力了。一旦在这上面处理了，我觉得这是一个很难逆转的一件事情。

我觉得是有一个品牌效应在，就像当时 stable division 出来以后，然后不仅是工业界，还有很多学术圈里面的人都在 stable diffusion 上面做很多新的研究。比如说著名的 control net，没有 stable fusion 就没有 control net，就没有后面很多的这一套的研究的领域。

这么想，前段时间不是有一篇文章还挺火，也挺有争议的，就是 google OpenAI 是否真的有，对吧？我们刚才讲了 moto 这个事情，因为以前大家看到，可能以前所谓的小模型的时代，大家会觉得这个技术好像很快大家都追评都差不多，就变成打榜游戏了。如果再看的话，那大模型因为这个 retrain model 需要的这个，有些人就会说，我们不应该用以前 open source 的这个来去比，我们应该用芯片的来去比，因为它前期的这个投入足够大了。

对我觉得你 pick up 挺好的。我更觉得模型是芯片的拿 log，而不是说是后面的。我觉得芯片你想芯片不是说人人的，我今天想做芯片我怎么去做对吧？但是英特尔 A 做出来一个让 P C 能够用的这个芯片，然后我就能在上面做很多事情了。所以说他基本上拉马做的事情，或者说是开源做的事情是一般的个人不太可能有这个财力能力去做的。他帮你做到一定程度，一旦做到那个程度就可以了。然后你刚才提到的闭源模型，或者说几个 fronting model 跟开源模型，我觉得这个差距还是在那边。而且这个差距不会是在短期内缩小。

因为刚才杰米也提到了，可能拉马 2可能是 3.5，这当然也有可能有点争议。但即使是 3.5，那跟四还是 GPT4 还是有蛮大差距。大概率会发生的就是 google 也好， OpenAI 也好，也会有下一代的产品，在几个月之内都会出来。就是说从性能上面来讲，我觉得会是甩掉 lama 2，还仍然是会有不少。但这个不是说不重要的，因为蓝马腿也是在往前走，对吧？你如果说只是六个月到 18个月落后，但是你只要一直跟着往前走，我觉得是这这是可以的。

另外一个就像我刚才说的，这个 eco 上给你补掉很多的落地上的漏洞也好，或者说各方面的。否则的话你光是去即使是 Frank model 对吧？我们也知道 google 或者 anthropic，我本来的 model 不错。

但是我真的就像我前面提到的，你真的要去落地做一些 B2B的so f tware，还是有一堆的东西。你如果我们用 OpenAI 来看， OpenAI 没有去补这些漏洞，他他的他的 engineer 只是在搞 A G I 对吧？他没有再去想我怎么去做一个 part，让那个做 B2B sor t的人舒舒服服，这不是他的工作重点。但是你在一个 lama 2这个 equation 里面，人家就会发现，这个 C 口不行的，我来给你补 C 口对吧？这个语言不行，我来给你补这个语。所以说我觉得即使是 reasoning capability 差个好几个月对吧？六个月、九个月、 12个月以上那个生态给方方面面其他的补助，我觉得还是非常显著的。

我同意这个 mode 可能确实不在这个生态方面，包括比如说像 2 model release 之后，大家会各种会给大家框架 tion，给大家 loa adaptations，各种插件就会有了。如果 google 自己的新或者是 open 自己新的模型的话，这些 Ortiz ation 这些插件都是只能自己做对。但是在 base model 方面，我觉得可能这个 mode 还是有一些。因为这个和之前像 Operating system 这样，比如说 linux 这个东西作为 linux kernel 自己它如果它 open source 了，大家比如说这些 develop 可以去修改这个，可能然后使得它有一些 bug。比如说它就直接修改完了之后，所有人都可以 procter 到。那如果这样做类比的话，可能没有这样一个说提升 lama 2模型本身的这样一个比较 share 的一个这样一个 community。或者说的类比。就是说如果你是在上面做 find tune，但是你的 fine uni 可能是 for 某一个 specific purpose。

但很难说大家群策群力把这个 base model 的能力去提升上去。这个可能需要一方面 consolidate 的一些 computer，然后另外一方面这个 base model 的提升可能更多的是要把这个 present stage，然后不太像是 open source community 现在能够去 help with 的一个事情。所以可能在 base model 方面确实会有一些 model。

对呃首先非常同意哈威老师，还有韩俊刚才提到这几个点我要补充一下。我是觉得最强的闭源模型和最强的开源模型，它们的差距只会越来越大，不会越来越小。理由非常简单，算力就是开源模型。我觉得现在大部分人做的其实是叫 scale down，而不是 scale up。因为这个开源社区里面，大家这个 G P U 什么都很有限，所以大家更愿意的是做比如说框 tizer 这些优化，然后让它跑得更快。甚至我还看大家是想把 lama 跑在 iphone 上面对吧？

像这些事情我觉得是开源的社区最喜欢做的，也是可能是唯一能够做的几个事情，或者说是微调。微调在一个就刚才浩伟老师提到可能 C Q L 不够好，就微调在 C 口上也可以做些事儿。但是从纯的这个叫 raw I Q 就是这个最强的这智商上面，我觉得就是要靠算力堆出来，没有别的办法。对，然后这一块的话像 S L pic，还有 open a，他们肯定在算力的集中程度上面是什么等等都是肯定达不到的。并且他们研究员的这个能力，包括他们最新很多算法就是开源的社区不断在 publish 在公开他们的秘密。欧巴不公开于，所以这就是一个很很大的一个信息的不对称。

而且 OpenAI 就是上次 entry，有一次他就提到如果市面上有一篇关于 transform 的论文的话， O B I 可能一般情况下都是五个月前就试过了，或者半年前一年前都试过这些，然后他们只是不 publish 而已。所以我觉得这一块的话，就从这个算法，还有包括从这数据的排盘和从算力上来说，这个闭源模型只会走的越来越快。对最强的开源模型和最强的闭源模型之间的鸿沟会越来越大。

然后 s topic 我觉得也是属于闭源的 frontier 模型。然后我觉得 s topic 目前在欧基本上 O B I 第一， topic 第二。但我觉得他们俩跑的速度，我是觉得会超过最强的开源模型跑的速度。而且我觉得现在这个市场的这个饼足够大，然后我觉得欧派现在也没有办法 serve 所有的人，所以 s pic 这一块我觉得他肯定是还是有很多 business 可以做的对。并且 O I 也 G P U 那么有限，就是 influence 也需要 G P U， serving 也需要 G P U。然后这块我觉得最后可能就是一个在芯片上的一个可能最后的 market share 就是跟你这个芯片的数量比。

我觉得如果在开源 community 的话，其实在小模型上做迭代做实验，可能会甚至会比眉笔在大厂之内做的可能会更花一点，或者至少会百花齐放一点。使得说大家在这方面积累的经验，希望说能够去最后用 scaling law contribute 到开源模型的那个大模型的最后的那把枪。对，当然也是非常同意金云说的。如果就是我发现他们毕竟在暗处，然后看什么看看都在明处，然后我再问你们好的东西，人家学会去自己用就行了。所以确实猫的还会在。

对我几个月前跟 OpenAI 和 anthropy c 的几个星爷的人，包括空方的在吃饭。结果一顿晚饭下来，我觉得就是一个共识。这个共识就是 jm 刚才说的，我们能够领先那个那个开源的模型，而且这个差距会越来越大说的很开心。

主要是因为杨子坤不在场了。

所以我本来是期望是一个对打的一顿晚饭，结果是开开心心。

这点我还挺好奇，因为技术的这个你说如果人才再说，最近大家经常我看那个 dream 范， dream 的那个 twitter 也提，大家觉得现在大模型更像是一种炼金术一样，对吧？它上面有很多可能这个可能不足为外人道也，或者说给你就告诉你了，可能你也很难去去去复刻的。但的确我们看到人才就是说这种所谓的商业或者技术秘密的这个事情就到底能维持多久。因为他再想去在暗处人才也是流动的。那到底在这个里面，你们觉得有哪一些是真正的无法去，我也许知道也无法去复制的这个核心。

比如说之前 GPT four 的这些 link，大家都可能都知道他一些模型的 detail 可能 90% 都是真的，比如说什么 M O E 架构什么，但是知道了又怎么样，确实知道不怎么样，因为大家也都可能不理解，你也知道他大概怎么做了，你就你也知道他在用传送了，可能就稍微魔改一下，或者是 M O E 架构。然后这些可能大家都知道，确实这方面可能不太能够说去复制，但是能够复制的是一些真的是一些这方面的积累，特别是我觉得人才差距也不大。但是主要是说你要能够去通过这个，还是我刚提到在小规模上实验，或者是这种不断的 china 的 error 中，你积累的这些调模型的这些经验，以及它的一些很多的 detailed 的 trip，以及包括 scaling law，怎么在小模型上调的参数，怎么在大模型上用。但是这些的话其实也是需要你划算力去学到的一些知识。

对我觉得现在顶尖人才基本还是在比如说 open a and topic google 之间流动互相流动。所以我觉得其实最后这些 trade secret 其实也是在这些闭源的 frontier 模型的这些组里面互相流动。所以我觉得这个闭源模型和开源模型这个鸿沟还是很难 bridge。

对就我稍微不一样一点看法。我觉得今天或者过去两年你看到的我觉得是事实。但我觉得从一个长远的看法，硅谷的历史上从来没有人才固定在这几个公司里面流动。我不觉得，我觉得人员流出来自己就包括 OpenAI 或者怎么样自己出来做各种各样的公司。

然后还是会我觉得真正能够去一个 mote，不是在某一个 individual 的人才，而是在于一个 collective 的人才。人这个 collected 人才其实更多的是文化企业的一个文化。就好像有太多的公司颠覆前一代公司，难道前一代的公司他不知道怎么做吗？其实他知道怎么做，他也知道他也有足够的人才。但是他因为他的那个商业模式或者 leadership 各方面的原因，他就没做下去。更多的是文化，从来没看到过，就只就就只有一个公司能做，然后另外一个公司不能做。

我觉得长期来讲不存在这个问题。但这个大语言模型跟以前稍微不一样一点的就是刚才 jm 提到的算力，对吧？算力是一个因为它是一个必要条件，所以说我即使我今天比你们这边所有的人聪明，我没有这个算力还是没用对吧？这是跟以前稍微不一样一样一点的。但这一点我觉得再给一个长期一点。因为算力这件东西，任何一个技术你就你我们技术革命经已经已经经过了好几个周期了。

一百多年你会发现再怎么样的贵机贵的技术，只要是 mass production，只要是大规模生产的，它肯定是成本会大幅的下降。所以说我觉得用再长远一点的观点，我觉得算力也不会是成为一个创新的一个阻碍。所以说我觉得 in the near term，在今后的一年五年、一年三年之内，我觉得可能就是说那个 front model 它的优势会持续对吧？因为人才流动也没那么快？然后那个更多的是算力，但我觉得超出三年之外，我不觉得这是一个最重要的因素。

对我觉得这个讨论其实特别的特特别好。然后那回到其实刚才 jm 有简单提到一个，就是你说现在很多企业开始想要用。这个开源的 model 吧？圈一个它自己的这个模型，它有更大的 flash book，更大的灵活度，可以圈个更动态模型。

这个我想把它稍微引申一下，扩展到一个其实也很有争议的一个话题，就是是否存在所谓的 domain 就 domain specific 的这个模型。因为刚刚就讲这种情况是说，我是我自己企业基于自己特殊的需要。那我们现在有很多人看到说他们在 chain 医疗，金融等等这个领域的模型。大家怎么看这些模型？当我们基础模型越来越强的时候，这些模型它是否本身是否会有壁垒，或者说是否有存在这个必要。

我觉得你问这个问题，可能方向就不对，因为为什么呢？你是觉得好像闭源的跟那个 domain in a specific 的 model 好像是对立的。我不觉得是对的，我觉得两个都需要的。

作为一个企业来讲，其实很多很多的 task 不需要很强的 model，不需要很强的 fronted model 去做这些事。比如说做一些我们那个 named entity recognition 对吧？这种这种 task 其实已经至少从我们内部来看，今天的开源模型要做我们内部的这个 N E R 这些事情是绰绰有余，不需要好的模型，就是说基本上都是能够做到，正确率是很高。我只是举其中一个例子。

其实我们的那个企业里面有不同的 task。我觉得有很多很多的 task 不需要 front model，就可以做得很好。有些东西就像我们前面也提到了 agent，或者说对 accurate 比较高的，我觉得是需要 free 的， model。所以说我是觉得长期来讲，一个企业做软件，我觉得会去要不时的去借鉴或者说用到一些 Frank 的 model。但是很多时候也可以用自己做，这是一个。另外一个企业，不管是金融安全还是国防，或者说什么领域，我觉得总归是有一些数据是啊是 model 永远拿不到的。所以说这个时候，你必须得有一部分的事情是要自己做的事。

比如说用一个开源的模型，然后的所以说我觉得是属于这我的一个理念是一个 it's a portfolio，就是说未来的世界不是说是个 model， or 一个 dm specific model，而是我是觉得都需要的。你就看一个 P C 上面，它有一个六的 C P U 对吧？ Intel 或者 M D 的，但还有一堆的 chips，从来没有说一个 P C 上面只需要一个 chip 就够了。所以说我觉得 potentially 那个 front 的 model 是 C P U 是有可能的。但是还是有大量的 I O 也好，或者说做做很多事情也好，还是需要还有 doma specific 的 model。我是我觉得这是必须的。

对我我很同意浩伟老师说的。我就补充一点，就哪怕现在闭源这些模型的公司，其实他们也会提供这样子一个 find tuning，就对于某些 enterprise 的一些合作伙伴的一个服务。比如说我觉得 anthropic 可能更多的是 to b 而不是 to c 然后 O B N A I 也是，还有包括 OpenAI 其实有一个叫 OpenAI start of fund，他们自己在投一些他们感兴趣的创业公司，其实每个公司就是一个 vertical。比如说举个例子，有一家公司叫 harvey，然后 harvey 就是 open I 自己投的。然后我相信他们就是有一个可能内部的一个最好的 france model，然后专门为法律去做的一个 fine tuning。 Harry 是一家 A I 就是 flaw g 的一个公司。对。

然后这个的话我觉得可能像这种 frontier 模型的这些公司，他们就会比较 selective。因为他们自己的 serving 的这个能力，可能就是也是局限于现在有多少芯片。所以他们就会挑一些这种大的这些 partner。当然就是需要这个服务的公司肯定有很多很多，所以他们服务不过来。对，但是我觉得他们其实也是能提供这样的一个 darin 的一个能力。

对我稍微问一下，其实刚刚主要提到非常重要的两点。一个是 cost，然后这 cost quality trade of，特别是在这这个特别是在 enterprise 的 use case 里面特别重要的一点。然后 about money，第二再一个就是大家都提到的这个 privacy issue。其实这个也不仅仅是在企业中，比如说甚至是可能会 maybe invision 在 to c 的这个场景。 Maybe 如果你算力或者模型或者以后允许的情况下，你可能也会把自己的过往的经验或者什么作为你的你自己用的这个 language model 的一个 corpse。然后它也只会跳在你自己的私有的这个模型上。但是确实 privacy 和 cost 这两个可能是觉得是至少让这个 fine tuning 或者是自动或者 customize model 有存在的必要性。

好的，上半集就播送到这里。如果你是用小宇宙听这期节目的话，可以在评论区和嘉宾们互动。下期将于明天播出，敬请期待。

这期 what nex 科技早知道就到这里了。听完之后如果你有任何的想法，欢迎在评论区里面给我们留言，我们每一条都会认真的看。如果你喜欢我们的节目，请记得给我们五星或者好评，分享给更多的朋友，也会对我们非常有帮助。你也可以单独写邮件给我，邮箱地址是听 T I N G 艾特声点 F M，我都会一一回复。同时公众号和微博也可以搜索生动活泼声是声音的声，节目相关的更多信息会在公众号里出现，微博和公众号都会有不定期的福利给到大家。

如果你想要跟我们更加紧密的讨论和分享，或者是想要认识和你一样有求知欲的新朋友，可以加入我们的微信群。进入听众群的方法是在公众号文章中扫码添加，或者是公众号后台回复科技早知道，即可获取邀请码。期待你的加入，我们下期见。

AI Agent 智能体 真相和未来 | 硅谷徐老师对话英伟达、DeepMind大模型专家（上） 01:13:53 Share

What's Next｜科技早知道

Deep Dive

Shownotes Transcript

AI Agent 智能体真相和未来 | 硅谷徐老师对话英伟达、DeepMind大模型专家（上）