We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode AI Agent 智能体 真相和未来 | 硅谷徐老师对话英伟达、DeepMind大模型专家(上)

AI Agent 智能体 真相和未来 | 硅谷徐老师对话英伟达、DeepMind大模型专家(上)

2023/8/16
logo of podcast What's Next|科技早知道

What's Next|科技早知道

AI Deep Dive AI Chapters Transcript
People
J
Jim Fan
戴涵俊
硅谷徐老师
Topics
硅谷徐老师:AI革命将使编程民主化,人人皆可编程;AI不只影响程序员,还会改变人们的工作方式,例如用AI查找并解释bug;企业场景中AI智能体落地应用仍有差距,但方向正确,未来客服等领域可应用;未来几年内,基于大语言模型的软件机器人将成为一等公民,改变软件开发和企业软件的使用方式;企业需要多种模型,既包括强大的基础模型,也包括针对特定领域的模型。 Jim Fan:AI智能体的应用包括软件、游戏和物理世界(机器人);对多智能体交互感兴趣,斯坦福Smallville虚拟小镇项目展示了多智能体在社会互动中的可能性;游戏是AI智能体最容易落地的应用场景,因为在游戏中,错误反而可能是特色;AI智能体应用的挑战大部分源于基础模型能力不足,GPT-5和GPT-6有望解决许多问题;最强的闭源模型和开源模型的差距会越来越大,因为闭源模型拥有更多算力和数据,以及更先进的算法。 戴涵俊:生成模型是其研究重点,包括算法、采样和优化,以及将研究应用于实际产品;最近关注的是如何更高效地对大语言模型进行采样,以实现实时化或降低延迟;AI智能体在虚拟世界和物理世界的应用方式不同,虚拟世界应用可通过写代码实现,物理世界应用需要多模态大模型;AI智能体在企业场景应用的挑战包括延迟、评估和错误处理;通过更好的自我训练,可以降低AI智能体的幻觉问题,例如通过编译器错误信息进行自我调试;大模型更像炼金术,一些核心技术难以复制,但人才流动和经验积累会缩小差距;最强的闭源模型和开源模型的差距将会越来越大,因为闭源模型拥有更多算力和数据,以及更先进的算法,且信息不对称。 Monica:对AI智能体在游戏领域的创新进展很关注,例如AI NPC;对AI智能体最终的实现方式有疑问,例如通过代码控制还是直接控制鼠标键盘

Deep Dive

Shownotes Transcript

Hello, 大家好, 在 节目 的 开始 想要 和 大家 分享 一个 消息, 生动活泼 正在 招募 播客 节目 监制 和 声音 设计师。 如果你 对 全球 商业 科技 的 动态 充满 好奇, 同时 热爱 文字, 擅长 逻辑, 我们 愿意为你 提供 全职 或 四个 月 以上 的 实习 机会。 欢迎 在 本期 节目 show note, 也就是 单独 介绍 中 查看 职位 信息 和 申请 方式, 期待。

你的。

用 声音 碰撞。

世界。

生动活泼。

大家好, 欢迎来到 科技 早知道。 这 一期 是我 和 Monica 的 播客 节目 on board 的 一个 串台。 这 一期 节目 的 两位 嘉宾 一如既往 光芒四射, 有 金范 博士 和 韩 军博士, 他们 都 先后 在 OpenAI 实习 过, 如今 分别 是 NVIDIA 和 google deep mind 的 资深 研究员。 因为 节目 时间 比较 长, 我们会 分 上下 两 集 播出。 现在 你 听到 的 是 上 半集 聊 的 话题, 包括 A I 大 模型 技术 落地 的 挑战 agent 也就是 智能 体 和 它 对 游戏 的 影响。 韩 军博士 是 少有 的 大 模型 专家, jim 对 agent 技术 如数家珍, 希望 大家 都能 得到 新的 认知。 接下来 我们 进入 今天 的 节目。

大家好, 我是 Monica。 这一次 请 到了 几位 嘉宾, 我想 都是 大家 耳熟能详, 而且 也是 我自己 个人 期待已久 的 几位。 在 A I 领域 绝对 是从 各个 角度 都 积累 非常 深 的, 而且 非常 有 想法 的 几位 嘉宾。 好话 不多 说, 一开始 还是 请 大家 先 做 一个 自我介绍。 你们 在 做 事情, 你们 所 关注 的 领域。 当然 老规矩 还有一个 fun fact, 就是 你们 最近 发现 的 一个 觉得 比较 意思 的 一个 A I 相关 的 一个 项目 也好, 或者 产品 也好。 要不 还 从 徐 老师 开始。

谢谢 大家。 今天 是 非常高兴 跟 几个 我 觉得 在 行业 里面 我 都 觉得 是 做 A I 大牛 的 几位 同学 一起 聊 一下, 包括 金 梵 我们 其实 已经 想要 做 一个 podcast, 已经 做了 蛮 久 了。 今天 我们 Monica 同学 是 萱 主 夺 彬, 因为 本来 这个 节目 是 说好 我 来来 采访 间 犯 的, 现在 变成 我 做 嘉宾。 但是 我 觉得 更多 的 很多 的 insights, 我是 非常 想 听到, jm 跟 韩俊 两位 同学 来来 更多 的 需要 一些, 关于我 自己。

我 做了 20我在 硅谷 待 了 二十几年, 前面 十几年 一直 在 做 云, 诸如 操作系统 云计算, 做 早期 的 V M Y 的 员工 研发 领导, 后来 做了 几个 start up, 最近 八年 开始 做 那个 A I 先是 在 gray lock 肯 挟 投资, 然后 自己 做了 一个 A I 的 公司, 后来 被 并购。 然后 最近 又 加入 了 palo networks, 做 engineering A I 的 高级 副总裁。 很快 的 讲一讲 一 interesting 的 比较 有趣 的 idea。 因为我 我 更多 的 是 觉得 genitive A I 这一次 的 革命 不 只是 对 编程人员 的, 是不是 他们的 工作 会不会 很大 变化? Programme 这件 事情 可能 是 变成 一个人 人都 会 在 变成 program 这么 一个 角度, 比如说 我 我 儿子 今年 暑假 他 就 做了 一个 比较 有趣 的 project, 他在 一个 初创 公司 做 一个 用 A I 来 发现 bug 这么 一件 事情。 那个 公司 叫 meta bob, 他 就 做了 一件 事情, 就是 去 explain 发现 的 那个 bug 是 怎么 回 事情。 然后 就 用 large language model 去。

然后 这 里面 你 就会 发现, 怎么 去 用 prompting, 怎么 去 用 hovered database 是 一件 很多 是一个 art, 对 吧? 我是 觉得 我 从 这 一个 例子 上面 来看, 就是说 我是 觉得 A I 这件 事情 会 变成 一个 更加 民主化。 这是我 所 看到 的 一个 世界, 是 在朝 这方面 走 好的。

大家好, 我 叫 戴 晗 俊, 现在 是在 google define, 之前 在 google brain, 然后 博士 期间 是在 georgia tech。 我的 主要 研究 方向 是在 生成 模型 本身, 包括 它的 生成 模型 的 算法 以及 它的 对应 的 采样 和 优化 的 算法 等等。 当然 这个 生成 模型 也 不仅 限于 蓝 轨迹 model 本身, 也 包含 比如说 其他 的 图像 生成 模型, 像 diffusion model 或者 是啊 结构化 数据, 包括 像 程序语言 这样 一类 的 生成 模型。 除了 research 本身 之外, 我也 对 怎么 应用 这些 research 到 实际 的 产品 应用 中, 我也是 非常 感兴趣。 包括 我们 最近 也是 跟 google cloud 这边 合作, 在 这次 的 google I O 上 一起 launch 了 R H F 这个 product。 希望 说是 用 google 自己的 模型 桥接 企业 用户 他们 自己的 需求。 然后 通过 我们 提供 的 算法, 把 这个 语言 模型 跟 实际 应用 去 结合起来。

然后 说到 最近 看到 的 比较 interesting project, 我的 关注点 可能 会 比较 偏 算法 本身。 我 像 我 一开始 提到 的 生成 模型 的 一些 可能 更 fomented 的 一些 算法。 所以 最近 我 看到 的 一个 比较 引人注意 的 是一个 关于 如何 对 大 语言 模型 进行 更 高效 的 采样 这样 一个 这样 一系列 工作。 首先 这个 工作 是 今年年初 或者 今年 年中, 大概 google research 和 depend 同时 independent 的 发表。 当然 现在 变成 一个 机构 了, 之前 两大 的 独立 机构 也是 同时 关注 到 这一点。

采样 算法 本身 也是 决定 了 实际 应用 中 如何 能够 把 语言 模型 做到 实时 化, 或者 是 至少 降低 它的 这个 clancy 现在 的 large language model 主要是 based on autogas sive model。 然后 这个 模型 其实 包括 言论 坤 在内 也是 对它 有 一些 诟病。 因为他 大家 都 知道, 语言 模型 可能 是一个 一个 单词 这样 吐出来。 所以 对它 会 导致 的 一个 问题 就是你 在 解码 的 时候, 你 需要 等到 上 一个 单词 突出 来 之后, 你 才能 解码 下一个 单词。 所以 这样的 一个 序列化 的 依赖, 使得 它 在 解码 的 时候 不 能够 非常 充分利用 现在 的 并行 的 计算。

所以 这 两篇 工作 名字 叫 speculative decoding, 是在 说 如何 我 能够 用 一个 小的 模型, 它 可能 会 跑 的 比较 快, 先 去 帮你 decode 一下, 然后 用 大 模型 去做 judgment, 然后 看 是不是 要 接受 这个 decode。 所以 这样的话 就是 它的 灵感 来源 是 源自 于 原来 最 早期 的 像 C P U 指令, C P U 的 这个 pipelines。 比如说 C P U 在 执行 一些 if condition, 他 要 做 branch prediction 的 时候, instead of 它 会 在那边 等着 去做 完 判断 之后 再 执行。 它 会 先 执行, 然后 如果 之后 判断 不对 的话, 再去 重新 执行 对的 那 部分。 那 原理 也 类似 在 语言 模型 解码 的 时候, 他 会说 我 先 用 小的 模型 先 去 decode, 完了 之后 再 用 大 模型 去做 驾驶。 这样的话 它的 速度 其实 能够 提升 两倍 以上。 所以 这是我 觉得 最近 是一个 比较 一个 亮眼 的 项目。

这 让 我想 起来 昨天晚上 我们 跟 几个 stanford 的 P H D 在 吃饭 的 时候, 有一个 同学 就是说 现在 这个 A I 的 主要是 在 看 A I 那些 基础 的 computer science 的 东西 就会 比较 少一点。 我说 我 其实 并不 同意, 我 觉得 其实 computer science 的 东西 还是会 在 AI 里面 出现, 对 吧? 然后 就 像你 你 刚才 说 的 这个, 我 做 操作系统 做了 10年 的 时候, 每天 就 在数 这个 instruction 怎么 choose prediction 对 吧? 我 觉得 其实 都 差不多。 说到 你的 一个 风范 的, 我 就 看到 在 你 停车 的 时候, 我 看到 你的 车子 C S P H D, 这 还是 比较 一个 perfect。 我 觉得 应该 跟 听众 报告 一下。

对, 就是 韩俊 的 这个 车牌 就是 C S P H D 非常 酷。 到时候 我 把 这个 照片 放到 我们的 这里 边。 好, 最后 这个 均分。

各位 听众 朋友 好, 今天 特别感谢 Monica 还有 浩 威 老师 邀请 我 来做 这个 podcast, 大家好, 我是 James fan。 我 16年 的 时候 是在 open I 实习, 然后 16年到21年 在 stanford 读 P H D。 然后 21年 毕业 之后 我 就 加入 英伟 达, 然后 现在 是 英伟 达 的 高级 A I 研究 科学家。

基本上 我 整个 career 最 感兴趣 的 话题 是 A I agent, 就是 人工智能 的 智能 体。 Agent 的 意思 是 他 能够 自主 做 决策, 而不 只是 像 Chat GPT1样。 你 问 他 一个 问题 他 回答 一下。 他是 能够 take actions, 能够 做决定, 并且 能够 是从 他的 这个 决策 的 过程中 不断 的 学习, 不断提高 自我。

然后 我 感兴趣 的 A I agent 的 应用 有 三类, 一个 是在 软件 上 的 应用, 就 如何 让 一个 A I 它 就像 人 一样 来 用 软件, 比如说 通过 鼠标 和 键盘, 或者 通过 A P I 等等。 然后 第二块 我 很感兴趣 的 是 游戏 里面 的。 然后 最近 我 带 的 团队 做了 一个 项目 叫 voyer。 然后 这 项目 是 让 GPT4 就 设计 一个 算法, 让 G P4 来 玩玩 minecraft, 就 我的世界 这个 游戏。 然后 mine crop 是 世界上 最 流行 的 游戏 之一, 它是 一个 沙盒 的 游戏, 然后 里面 有 很多 这种 三维 的 不同 的 block 比如说 有啊 木头, 然后 有 铁器, 然后 你可以 在 这个 游戏 里面 可以 探索, 然后 可以 craft 各种 不同 的 工具 等等。 然后 我们 发现 只要 设计 一个 足够 好的 算法 的话, GPT 它 可以 自主 的 探索, 并且 在 这个 游戏 里面 不断 的 学习。

我 觉得 智能 体 在游戏 这个 领域 里面 未来 应用 非常 的 大。 比如说 如何 设计 这种 开放式 的, 有 无线 故事 线 的 这种 游戏。 就是 游戏 的 设计师 他 不用 提前 决定 是 什么样 的 故事情节, 然后 每个人 玩 这个 游戏 他 可以 玩出 不同 的 玩法, 这是 第二块。 然后 第三块, 我 觉 智能 体 的 未来 是 会 在 物理 世界 里面, 也就是 机器人 robotics 目前 这种 通用 的 机器人 技术 还没有 达到。 但是 我 觉得 可能 未来 3到5年 或者 十年 左右 的 这个 时间线 上, 我们会 看到 大量 的 这种 通用 的 机器人 进入。 不仅 是 工厂 里面, 还有 家用 的 一个 一个 环境。 所以 大致 是 这 三 这个 三块。

然后 刚才 提到 就是 一个 最近 比较 有意思 的 项目, 我 刚才 讲 的 这些 应用 基本 都是 单个 智能 体, 但是 我 最近 对 多 智能 体 的 交互 非常 的 感兴趣。 我有一个好朋友 是我 斯坦福 学弟, 他 叫 john park。 然后 他 最近 做了 一个 工作 叫 general agent。 然后 在 这 篇文章 里面 他 提出了 一个 stanford small file, 就是 一个 小的 一个 虚拟 的 城镇。 然后 在 这个 小城 里面 有 25个AI 智能 体。 他们 其实 每一个 就是 一个 GPT。 但是 他们 有 不同 的 人格, 然后 有 不同 的 自己的 背景 的 故事。 然后 他们 每天 早上 起床 去 上班, 或者 去 学校, 或者 去 医院 等等。 然后 他们 互相 会 讨论, 会有 各种 集会, 然后 会 一起 吃饭 等等。

所以 这样 一个 虚拟 的 小镇, 我们 就 看到 它 就是 这 25个 置顶 体 能够 不断 演化, 并且 他们 能够 有 自己的 不同 的 这种 social gathering, 不同 的 活动 等等, 然后 就 非常 有意思 的 一个 模拟。 所以 我 觉得 多 智能 体 的话, 未来 它的 这个 可能性 非常 的 大。 比如说 像 科幻片 西部 世界 里面。 描述 的 那样 就是 每一个 A R 它 有 自己的 一个 性格, 自己 不同 的 故事。 然后 最后 能够 演绎出 非常复杂 的 一个 在 social interaction 上面 的 这种 无线 的 变化。 所以 这是我 关注 的 一个 项目。

感谢。 其实我 觉得 正好 聊到 这个 agent, 因为 agent 本身 就是 一个 大家 很 关注 的 话题, 不如 我们 就 顺着 刚才 就 提到 这个 agent 就 聊 下去 就 好了。 其实 也就是 几个 月前, agent 这个 定义 被被 提出来, 也 我们 也 看到 了, 包括 adapt 对 吧? 然后 包括 最近 有 很多 什么 auto GPT, a GPT A G P 等等 的 这些 应用。 但是 大家 其实 也 对他 有 很多 的 争议, 对 吧? 我 就 想 让 俊 来 聊 一 聊, 就是你 刚才 提到 了 几种 的 agent 的 这个 应用。 就是你 觉得 agent 它 应该 具备 哪几个 核心 的 构成。 从 技术 和 产品 的 角都 来说。

我 觉得 现在 A I 智能 体 的话 就 分 刚才 讲到 的 三种。 但 其实 就 一个 是在 虚拟世界 里面, 然后 还有一个 是在 物理 世界 里面。 然后 我 觉得 这 两类 的 做法, 他们 有 相同 的 地方, 但是 还是 有 很多 地方 是 不一样的。 比如说 举 个 例子, 就是 刚 提到 的 第一个 应用 就是 A I 它 控制软件, 然后 帮 人 来做 一些 生活 中 需要 做 的 一些, 比如说 查查 邮件。 我 觉得 这 一类 智能 体 的话, 可能 最好的 方式 是 通过 写 代码。 因为 其实 现在 很多 的 这个 软件 它 都是 有 A P I 的, 包括 我们 看到 的 ChatGPT 的, 它 这个 APP store, 然后 这 系统 其实 也是 一种 写 代码 的 这样 一个 语言 模型。 然后 用到 这些 软件 的 工具, 然后 通过 A P I 用 的 工具, 把 这些 工具 串联 在一起, 就可以 实现 很多 的 任务, 这个 我 觉得 是一种 方式。

然后 另外 的话, 在游戏 或者 在 机器人 上面 的话, 那多 模态 的 这个 大 模型 是 非常 的 重要。 因为 他们 不仅 是 看到 文本 或者 写 代码, 他们 还需要 能够 有 计算机视觉。 然后 他们 能 看到 虚拟 的 一个三维 世界 或者 现实 的 一个三维 世界。 但 这边 我 觉得 多 模态 是在 未来 会 起到 一个 决定性 作用。

所以 要 实现 这个 智能 体, 除了 这个 L M 之外 还需要 哪几 些 部分 呢? 还是 说 它 核心 的 能力 应该 怎么 理解? 它 核心能力 就是 由 这个 L M 来决定 的 吗?

对我 觉得 比如说 对于 机器人 来说, 我 觉得 有一个 和 L O M 区别 很大 的 地方。 就是 在 训练 大 语言 模型 的 时候, 这个 数据量 是 不成问题 的。 就是 整个 互联网 上面 这个 数据 都是 可以 作为 训练, 而且 就 是从 这个 互联网 上 script 这些 数据 也 非常 的 容易。 但 对于 机器人 来说 的话, 比如说 机器人 的 这些 控制 的 一些 数据 是在 网上 下 不到 的, 所以 就 意味着 我们 要 自己 采集。 这个 我 觉得 就 让 训练 非常 的 困难。

所以 采集 的话 现在 主流 有 两种 方式。 一个 是 通过 模拟器, 比如说 物理 里面 的 物理 模拟器 或者 游戏 的 模拟器。 然后 另外一个 就是 买 一大堆 机器人, 比如说 几百个, 然后 就是 让人 来 控制 他们, 或者 让 他们 就 自主 的 探索。 但是 在 物理 世界 里面 就 直接 采集 数据。 但是 这 两种 的话 都 各有 他们的 利弊。 所以 我 觉得 现在 这个 问题 其实 是 比 训练 大元 模型 要 难 很多 的 问题。 就是 为什么 我们 现在 还没有 看到 通用 机器人?

对我 我 其实 对 刚刚 jim 的 回答 非常 感兴趣。 有一点 是 jm 我知道你 在 做 很多 avoided agent 这样的 一个 set, 就是说 agent 需要 跟 这个 环境 去 交互。 我们 看到 很多 就是 把 language model 自己 作为 agent 的 这样 一个, 有没有 说是 有 把 language model 或者 foundation model 作为 environment 的 这样 一个 set up。 使得 说 我 能够 更 face for 去 模拟 这个世界, 以及 让 这个 agent 和 environment 交互 都 变成 两个 利用 foundation model 本身 的 能力 去 enable 的 这样 一个 事情。

对我 我 觉得 foundation model 是 可以 作为 一个 事件 模型。 然后 这个 意思 是啊 它 可以 模拟 未来, 它 像 自己 是一个 模拟器, 然后 它 可以 比如说 在 take 一些 action 之后, 他 可以 预测 这些 action 可能 会 造成 的 未来 的 一些 后果。 然后 通过 这样 一个 方式 的话, 是 可以 生成 一些 这种 人工 的 一些 数据。 然后 通过 这个 也可以 训练 一些 更好 的 智能 体, 所以 我 觉得 这个 也是 一条 思路。 但是 现在 这个 大 语言 模型 它 有 pollution ation, 会 产生 一些 幻觉, 所以 它 这个世界 模型 不一定 非常 的准, 然后 这个 可能 也会 造成 一些 困难, 所以 我 觉得 这 一块 也是 一个 双刃剑。

那 我 像 想 问 一下 徐 老师, 就 您 在 这个 企业 这个 场景 里边, 有没有 看到 一些 跟 agent 相关 的 一些 尝试。 然后 你 觉得 哪 一些 是你 觉得 不好意思, 这里 边 它的 可能 存在 目前 离 这个 落地 相比 存在 一些 主要 的 挑战 在哪儿?

从 一个 落地 的 角度 来讲, 我 觉得 差距 还是 蛮 远 的。 就 好像 澳洲 GPT 大约 今年 大概 三月份、 四月份 突然 很 红火 对 吧? 大家 几乎 每个 退 好像 都在 讲 GPT 对 吧? 感觉 好像 就是 人人 都 应该 用, 但 你 真的 去 用, 你 真的 去 做 一些 series 的 东西, 其实我 觉得 可能 没有 一个人 能 做出来。 但 不 代表 这个 direction 是 错的。 我 觉得 这 就像 任何 一件 事情, 我 觉得 都 需要 一些 时间 去 mature。 所以说 从 这个 角度 上 来讲, 我也是 觉得 我是 非常 相信 这个 agent 的 这个 direction, 吧?

以后 要 做 一件 事情, 我们 用 large language model potentially 去 把 一些 事情 给 分解 成为 小的 步骤, 然后 直接 去掉 一些 A P I, 然后 直接去 把 一件 事情 做成。 这 我 觉得 是 能 做 的, 而且 应该做 的。 但 今天 还 做不到, 今天 比如说 如果说 我要 落地 去做 一个 客服, 你你你 去 看 客服 的 东西, 很多 时候 他的 问题 不 只是 说是 来 回答 一个 问题, 很多 时候 是 需要 去 改变。 比如说 去 update 一些 record, 我 觉得 今天 要 用 agent 去去去 做 一些 change record 的 这些 东西, 我 觉得 肯定 是 不成熟, 能够 回答问题。 但 我 觉得 两年、 三年、 四年 以后 的 那个 客服, 我 觉得 就 完全 是 可以 去 用 agent 去做。 今天 还 很远, 但是 这个 很远 不 代表 时间 很远, 而是 说 这个 落地 还有 很多 的 落差。

韩军 也可以 聊聊 从 你的 角度看 他的 chAllenge。

对 呃 首先 我 非常 echo 和 我说 的 这个 auto GPT 这件 事情。 因为 auto GPT 它 能够 让 自己 模型 自己 去 调用 自己, 就是说 他 意识 了 多少 个 language model call 这件 事情 它 自己 可以 控制。 所以 带来 一个 问题 就是 可能 你 完成 一件 事情 会 本身 需要 非常 多 的 迭代, 但 这件 事情 在 比如说 像 客服 或者 这些 应用 场景 中, 这个 latency 是一个 非常 大 的 问题。

然后 第二个 是 about 这个 evaluation, 其实 说到 agent 可能 也 绕 不 开 to use。 比如说 我 让 这个 agent 帮 我 去 订 个 机票, 那 最后 有没有 订到 或者 订 的 是不是 我要 的 机票, 这件 事情 可能 比较 容易。 但是 你 中间 订机票 这件 事情, 你 也 可能 分解成 好几个 步骤。

第一步, 比如说 你 要 去 一个 正确 的 网站, 然后 你 要把 相应 的 这个 时间 地点 都要 输。 对, 就是 每一个 step 你 都 需要, 最好 是 有 这样 一个 中间 的 反馈。 这个 其实 也 跟 传统 的 reinforce learning 也 非常 相关。 就是说 作为 强化 学习, 只 让 他 做 一系列 action 之后, 让 他 最后 得到 一个 反馈。 他 中间 其实 做 的 好 和 坏, 他 要 花 很 长时间 去 figure 中间 的 这个 到底 好 还是 坏。 所以 怎么 去做 event, 特别是在 没有 完成 target task 的 时候, 中间 的 那些 步骤 怎么做 去做, eventually 也是 一个 非常 急需 的 一个 能力。

对, 然后 包括 这个 剧情 你 要 调用 那些 错误 的 时候, 有些 错误 可能 你 用 它 可能 会有 一些 consequence, 不是 reversible 的 一些 consequence。 当然 也有 一些 walk around, 比如说 像 我 之前 可能 有幸 做 过 一次 那 case, 它的 autumn driving, 他 现在已经 在 旧金山 城里 面对, 但 他的 他 也会 碰到 很多 edge case。 就 比如说 前面 车 突然 停下来 了, 前面 车 到底 是因为 比如说 他在 卸货, 所以 你可以 其实 可以 从 对面 街道 过去, 还是 说 你 就 应该 等着 他 这件 事情。 Cross 他的 车, 他 自己 判断 不了, 他 会 发给 后 端, 然后 后 端 可能 会有 remote 这样 人为 干预。

对, 可能 这 是一个 maybe 一个 work round d 但是 在 language model 或者 在 agent to youth 里面 有 太多 的 这样的 h case, 或者说 烂 规矩 梦 的。 自己 可能 也 不知道 这 是个 edge case。 所以 怎么 去 更 safely 的 去做 这个 to you 或者 是啊 regulated agent behavior, 是我 觉得 也是 比较 挑战性 的 事情。

对我 觉得 evaluation 的确 是 大家 最 常 提到 的 一个 话题。

对我 觉得 刚才 浩宇 老师 还有 韩俊 说 的这 几个 点 都很 有 道理。 因为 现在 就是 在 一个 企业, 或者 是 机器人, 或者 无人驾驶 这些 应用 下面, 就 它的 这个 安全性 非常 的 重要, 就 可靠性、 安全性 都 非常 的 重要。 但 这块 我 觉得 现在 的 A I 可能 是 只有 80% 到位。 但是 如果不是 比如 95% 占 99% 到位 的话, 这些 东西 很难 落地。 所以 我 觉得 其实 现在 最 容易 落地 的 一个 智能 体 应用 就是 在游戏 里面。 因为 游戏 里面 哪怕 说错 点 话, 甚至 就是 讲 一些 有些 时候 可能 有些 过分 的话, 大家 都会 觉得 这个 非常 的 娱乐性, 就 非常 cute, 对, 非常 的 entertaining。 对, 所以 就是 非常 在 这个 游戏 这样 一个 环境 下, 它 反而 这些 不一定 是 bug, 反而 是 feature, 就是 这个 感觉。

所以说 生成式 的 A I 最近 几年 或者 最近 一两年 就 做 的 最好的, 还是 像 jasper 那个 majority 这样的, 就是说 做出来 东西 creativity 更 重要。 至于 说是 差一点 或者 差 10%, 这 不是 很 重要。

对, 一直 像 character 他们是。 种 比如说 他 作为 情感 陪伴, 或者 是 作为 模拟 一个 动画人物, 或者 是 模拟 一个 celebrity 跟 你 对话。 其实 中间 说 错话 或者 是 乱说 什么, 其实 你 也 不会 太 care。

对, 没有 一个 正确 答案。

不过 我 觉得 Carter 和 没 journey 就是 是 他们是 creative, 但 他们 并不是 agent, 因为 他们 没有 在 做 这个 决策, 没有 就是 我们 说 的 behavior。 然后 这 一块 的话, 我 觉得 现在 A I M P C 就 这种 long player character 这 一块 才 刚刚 起步。 然后 我们 现在 还没有 很多 大 的 游戏 的 场 对 这个 A I M P C 特别 感兴趣。 但是 我们 还没有 看到 他们 大规模 的 部署, 或者说 做 一个 我们 称为 A I first 的 一个游戏。 这 整个 游戏 的 体验 就是 一群 A I 智能 体, 然后 他们 在 讲 这个 故事, 然后 每个 玩家 都 能有 自己的 一个 独一无二 的 体验。 所以 这块 目前 还没有 看到, 但是 有 一些 有 一些 prototype。

我 举 个 例子, 前段时间 有一个 叫 病娇 女友 一个游戏。 对, 然后 就是 那个 里面 有一个 女友, 但是 她 有点 crazy, 然后 你 要 相当于 说服 她, 让 你就是 出 这个 房间。 然后 我 就 看到 youtube 上面 有 很多 大 V 然后 他们 就在 玩 这个 游戏, 可以 玩出 各种 不同 的 玩法。 然后 你可以 有 欺骗, 或者 你可以 就 哄 他 或者 等等。 对, 然后 完全 是 通过 背后 都是 通过 chat B T 做 的, 所以 这个 是我 觉得 一个 A I first 的 一个游戏。 但 现在 大 的 一些 3A级 的 这些 游戏 公司, 目前 还没有 看到 一些 大 的 动作。

对, 其实 我们 也 挺 关注 A I 对于 游戏 这 一块 的 一些 创新。 就是 关于 N P C 这 一块, 就是我 我们是 比较 喜欢 跟 你说 这个 病娇 女友。 虽然 说 她 很 简 目前 还很 简单 的 一个 形态, 但是 这个 是 所谓 真正 的 是 A I 这个 native 的 能力。 你 没有 这个 L N 你就是 做不了。 有时候 我会 看到 大家 把 这个 只是 把 一个 更 聪明 的 N P C 放在 游戏 里面, 放到 一个 现有 的 比方 现有 的 R P G 什么 这 游戏 里面。 其实 你 发现 他 对于 这个 游戏 体验 的 改善 其实 没有 那么 的对, 没有 那么 的 大, 所以 就 变得 有点 鸡肋。 但是 我们 其实 还是 很 期待 有 更多 这种 全新 的 这种 游戏 模式 被 创造 出来。

其实 最近 也 看到 有 不少 跟 这个 sanford 小镇 类似的 一些 这种 游戏 的 idea。 但是 就像 刚刚 才 大家 说 的, 我 觉得 实际 落地 中 包括 这个 memory length 等等 的, 还是 有 一些 挑战。 但 我 就 一个 新技术 出来 挑战 大众 很 容易 说, 但是 毕竟 就 刚才 提到 的 这个 欧洲 GPT 这个 概念 提出来, 这个 project 提出来, 其实 也有 这个 几个 月 过去了, 在 大家 刚才 所 关注 的 几个 挑战 领域, 有没有 看到 一些 这 几个 月 在 帮助 这个 age 或者 O O O G B T 能够 更好 落地 的 一些 进展, 让 我们 觉得 是对 未来 可能 不要 promising 的。

Jim 可能 看到 的 多一点, 因为我 我 觉得 至少 推特 上面, 我是 时不时 能够 看到 一些 新的 project 概念, 跟 auto GPT 差不多, 感觉 好像 他们 打磨 了 一点, 我 感觉 我 也没有 follow too closely, 但 我 感觉 好像 是 层出不穷, 还是 有 一些。

你的 感觉 呢? 我 觉得 是 有 一些, 但是 目前 感觉 就是 真的 部署 了, 真的 在产品 里面, 好像 还是 寥寥无几。 可能 更多 的 还是 从 写 代码 的 这个 角度, 但是 可能 也 不是 完全 自主 的 把 这 整个 决策 的 决策 链 都 放进去。

你 觉得 这 里面 有 多少 成分 是因为 基础 模型 的 能力, 就是说 我 今天 这个 基础 模型? GPT four 已经 不错 了, 但是 还是 有 很多 问题。 如果说 我 到了 GPT five、 GPT six 那个 level, 说不定 很多 这些 问题 就 迎刃而解 或者 自动 解决 了, 还是 怎么样? 你 从 你的 观点 有 多少 是因为 基础 模型 的 原因?

我 觉得 可能 有 七八成 是因为 技术 基础 模型 的 原因。 比如说 举 个 例子, 现在 给 GBD41个API, 然后 让 他 要 完全 按照 这个 A P I 来。 它 有些 时候 还是 会有 很 lucent, 就是 它 产生 幻觉, 然后 他 可能 A P I 用 的 并不是 特别 对。 但 这 一块 如果 GPT5和 6能够 很 精准 的 用 A P I 的话, 那 其实 很多 这 里面 的 问题 就能 解决。 比如说 如果我们 要 一个 A I 来 控制 我们的 这个 browser, 然后 来 订 个 机票 或者 什么的, 这块 万一 输 错了 一个 信用卡 什么, 这 问题 就 特别的 大。 这块 G P4 可能 还没有 那么 可靠, 所以 我 觉得 5和6会解决 很多 这样的 问题。

然后 另外 一点 就是 多 模态, G B 4理论上 是 多 模态, 但是 现在 大家 能 用到 的 就是 公开的 A P I, 它 只是 一个 文本 的 A P I。 对, 所以 我们 现在 并不知道 G P4 多 模态 能 做到 什么 程度, 但是 5和6的话 务必 是 会 是 多 模态 会 放在 第一位。 那个 时候 我 觉得 可能 5和6甚至 都能 用于 比如 做 一些 游戏, 或者说 制造 一些 机器人 的 这些 应用。 因为 它 能够 把 这个 像素 或 甚至 视频 输进去, 所以 我 觉得 这 一块 目前 G V 4还比较 难 做。 因为 我们 必须 要把 这个 图片 或者 视频转换 成 文本, 然后 他 才能够 去 做做 这个 决策。

我 我 非常 echo jm 这一点, 就是 关于 agent 的 能力, 其实 更多 的 是在 这个 模型 本身。 我可以 提供 另外一个 观察, 就是 前两天 在 莫妮卡 的 活动 中, 星云 也 给 了 一个 talk, 关于 让 agent 的 自我 debug 这件 事情。 他的 setting 大概是 这样, 可能 就是说 让 这个 agent 去 写 个 程序, 然后 可能 他 第一次 不一定 写 的对, 但是 你可以 通过 这种 prom 方式, 让 他 去 自我 去 回顾 一下, 看看你 自己 写 的 东西 和 语义 的 language 的 instruction 是不是 match。 然后 这 样子 做 一两次 迭代 之后, 他 会 发现 这样 比较 强 的 模型, 像 G P4, 它 就会 正确率 反而 会 提升。 所以 就是说 通过 A 证 的 让 他 自我 去 修正 的 方式。 但是 这个 能力 比如说 让 他在 GPT 前 一些 版本 去做 同样 的 事情, 他 会 发现 这个 反而 会 让 他的 point 下降。

但是 其实 在 聊到 这个 agent 的 应用 的 时候, 大家 的确 最 常 提到 的 就是 这个 host nation。 但是 其实 我们都知道 他 section 是 这个 大 模型 自己 本身, 它 基于 这个 架构 本身 不可避免 的 一个 东西。 然后 的确 在 agent 我的 理解 是 说 在 agent 里面 这个 体现 更 明显, 是因为 它 涉及到 很多 个 多个 步骤 的 执行。 那那 这个 问题 就是 如果说 这个 是 模型 自己 内生 的 一个 无法 避免 的 东西, 那 难道 就 意味着 说 我们 得要 另外 一种 底层 模型 才能够 实现 我们 所 期望 的 能够 落地 的 这个 准确度 吗?

其实我 想 借鉴 一下, 就是 问 他 当时 talk 里面 的 一个 观点。 就是说 如果 模型 自己 不知道 这个 东西 的 答案, 比如说 你 问 模型, 比如说 他的 knowledge 是在 2021年 之前, 你 问 他 2023年 谁 是 总统 这样 一件 事情, 他 自己 本身 没有 这个 答案。 但是 你 做 instruction tunney 的 时候, 你 告诉他 这个 答案, 那 他 为了 去 回答 这个 问题, 他 只能 去, 那 另外 一方 也是, 如果 这个 模型 本身 就 知道 答案, 但是 可能 你 为了 出于 safety 或者 conservative 的 原因, 让 他 告诉他 你 应该说 不知道。 那 同样 是 另外一个 direction location。 所以 就是 identify 这个 模型 自己 知不知道 这个 问题 的 答案, 以及 在 对应 的 时候 去做 相应 的 回答。

这件 事情 如果 能够 去 解决 这个 事情, 我 觉得 其实 是一个 能够 放在 门 头里, 或者 是 至少 能够 alleviate 这个 horizon ation problem。 然后 大家 也 看到 就是说 像 R H F 或者 这些 类似的 技术, 在 现有 的 架构 基础上 确实 能够 有 一定 的 信任。 当然 不是说 guardie 才能够 解决 好的 nation 问题, 但 可以 greatly reduce the ho cino。

我我我 觉得 对, 首先 我 非常 同意 这一点。 另外 我 觉得 其实 在 一些 特定 的 问题 上面, 可以 通过 更好 的 自我 训练 来 降低 和 luca。 比如说 举 个 例子, 就是 写 代码 的 这个 agent, 然后 它 写 代码 的话 有 一些 编译器 或者 interpreter 首 权限 能够 给 一些 错误。 然后 这个 错误 就是 一个 信息, 或者 他 会说 就是 某 一行 里面 出了 什么 错, 这 其实 就是 一个 signal。 然后 能够 让 他 通过 这个 自我 训练 能够 不断 的 improve。 还有 包括 就 是从 探索 或者说 是在 完成 个 任务 上面, 我们会 知道 这个 智能 体 是否 成功 完成任务。 然后 如果 他 没有 完成 的话, 他在哪里 出了 错。 这些 其实 都是 信号, 可以 让 它 来 至少 降低 一些 在 一些 特定 的 环境 下 的 pollution。

所以说 那个 和 lucinda's 个 幻觉 这个 问题, 你们 两个人 的 观点 是 最终 还是 有有 两个, 一个 是用 强化 学习 去去 解决, 另外一个 还是 一个 知识 或者说 是 学习, 如果 足够 多 的话 还是 可以 的。 那你 觉得 像 这个 精准度, 因为 这样 coin 对 吧, 就 它的 对 精准度 的 要求 很高。 你 不能说 就像 那个 驾驶 车 一样, 你 不能说 1% 的 时候, 虽然 说 今天 好像 是 超过 1%, 但 你 即使 降低 到 1% 还是 很高, 对 吧? 你 觉得 就像 coding 这样的, 能不能 做到 accuracy 跟 几乎 跟 不是 语言 模型 产生 出来 的 coding, 就像 我们 那个 google、 facebook engineers 写 出来 的 coding。 大家 都 会有 bug。 但是 说 降低 到 那一个 程度, 你 觉得 是 有 信心 吗? 或者说 短期内 会有 信心 吗?

我 觉得 是 非常 有 信心 的, 因为 最近 有些 论文 也 体现出 这一点, 就是 GPT4 d bargain 这个 能力 其实 非常 的 强。 它 可以 就是 看自己 写 的这 代码, 然后 看 一些 比如说 编译器 的 错误信息。 然后 他 会说 可能 是我 这 一步 写错 了, 然后 是因为 这个 原因 写错 了, 然后 他 可以 有 这个 sink step by step 这样 一个 过程。 一个 chain of thought 的 一个 过程。 然后 他 可以 通过 自我 的 debugging 来 改进 他 自己 之前 写 的 代码。 所以 我 觉得 这 一块 的话, G P4 已经 涌现, 智能 还是 挺 强 的。 然后 我 觉得 之后 GPT5 等等 应该 会 在 这个 上面 做得 更强。

就像 浩 伟 老师 您 说 的, 就是 即使 是 人的 工程师, 一般 写 第一遍 代码 一定 会有 bug。 写 完 以后 然后 执行, 然后 看 了 这个 bug report, 然后 能够 精准 的 去 修改 这个 代码, 并且 在 重复 刚才 这个 过程。 如果我们 能够 完全 模仿 人的 这样 一个 过程 的话, 我 觉得 之后 这 写 代码 能力 应该 会越来越 强。

前 一段时间 我 跟 一个 朋友 sa 郭, 他 提 了 一个 观点, 他说 今天 写 代码 他的 能力 也就是 写 一个 paragraph, 写写 一个 function, 但是 不足以 写 一个 file, 或者说 是 更 大规模 的。 就 我们 顺着 写 代码 这个 角度, 你 觉得 什么时候 编程人员 码农 的 写 一个 file, 他 都 能够 比较 精准 的 能够 写 出来。

对我 觉得 这个 可能 需要 long context。 因为 现在 毕竟 就是 GBD4 什么的, 这个 context 的 长度 还 不够, 不足以 写 一 整个 文件 一个 很长 的 一段 代码, 就是 它 这个 memory 什么的 都 不太。 但是 我 觉得 这 一块 的话, 在 未来 几年 应该 是 慢慢 会 得到 改善。 韩军 怎么看? 因为 韩军 是在 前线 来 训练 这些 最强 的 模型。

这方面 我也 持 乐观 态度。 然后 主要 是因为 两个 点, 一个 是 其实 主要 核心 部分 还是 在 数据, 其实我 个人 在 premier model era 也 劝 过 这种 debug ing 的 事情, 就 比如说 让 这个 neural network 去做 deep correct code。 但是 我们 当时 缺 的 是什么? 缺 的 是我 怎么 知道 给你 一个 代码 应该 改 哪里, 应该 怎么 把 它 改成 一个 对的, 或者 我 哪里 我 怎么 知道 这个 代码 会 出错。 当时 我们 非常 struck 这件 事情, 但是 后来 reduce 到 去 get 上去 爬 一些 他们的 commit。 我们 觉得 可能 有些 commit, 如果 他 改 的 数量 比那 他 可能 是在 修 一个 bug。 所以 就是 通过 这种 方式 去 获得 一些 noisy 的 data。

但是 现在 不一样, 现在 是 大家 用 这个 code 的 或者 这些 产品 越来越多, 大家 会 其实 主动 的 跟 这个 copilot, 比如说 去 进行 或者 是 进行 修 bug 的 过程, 其实 是 能 给他 more data, 然后 让 他 去 再去 improve。 然后 这种 data 是 其实 是 更 专注 更 高质量 的 data。 从 这点 上 来说, 我 非常 of optimistic。 就是说 它的 debug 或者 是 写 代码 能力 会 更进一步 的 提升。

是一个 几年 的 一个 范畴, 就是 有 大规模 的 突破。 今天 我们 大家 都 对 GPT4 的 能力 非常 的 惊叹, 对 吧? 包括 我 个人 几个 月前 我是 一直 是 觉得, 但 我 最 近几个月 看 了 看, 就 包括 我们 刚才 讨论? 其实 基础 模型 的 能力 还是 不够 或者说 怎么样。 我 现在 想 过了 若干年, 我 觉得 我们会 忘记 GPT four 这个 mars stone, 我 觉得 真正 的 marston 还是 在 后面 的 一两个1两个 就 有点像 apple 我们 都说 这 是一个 iphone moment 对 吧? 但是 iphone moment 就 说老实话, 即使 在 硅谷 没 几个人 记得 那个 123, 对 吧? 多数人 还是 从 iphone 4 开始 用 起来 的。 所以说 我 觉得 GPT4会 会 最终 会 成为 一个 very early version that no one even talk about IT。

对 另外 一半 是 也 非常 echo 就说 的, 关于 context length 这件 事情, 大家 可以 看到 就是 to make 这个 to copilot 或者 是 这种 code copilot useful, 你 得 去 理解 我自己 的 code base。 然后 自己 code base 可能 已经 写 了 很多 东西, 然后 不大可能 全 3d context 就 increase contest length。 我 觉得 是一个 可能 是一个 比较简单 的, 就是 hopefully 的 无脑 的 方式, 因为你 其实 也 不知道 什么 应该 放到 context 里面, 那你 就 全 放进去。 但是 也会 带来 问题 就是 一个 是 architecture SE 它 能不能 接受。 第二 是 即使 最近 可能 看到, 大家 也可以 看到 很多 能够 说 把 context land 3到100 克, 或者 in milan 这样 一些 language model。 那 它的 问题 就是 它 能不能 去 理解 这个 context, 所以 是 两方面 都都 可能 会有 the middle。

对, 但是 现在 我们 看到 就是 像 一些 relieve 的 一些 方法, 我 觉得 是 包括 科 帕拉 的 自己。 比如说 他们 做 的 那个 在 V S code 里面 的 plugin, 它 其实 也是 有 一定 的 续航 能力, 能够 帮助 你 去 live 的。 这个 problem 我 觉得 对 最初的 问题 是在 能不能 写 长 代码。 我 觉得 这个 能力 上, 我 觉得 现在已经 可以 看到 一些 worker w 了。

我问 一个 具体 的 问题, 因为 其实 刚才 几位 谈到 这个 agent 的 时候 都在 讲, 比如说 他用 这个 可能 类似 于 plugin 的 这个 形态, 你 要 写 代码 然后 去 扩 A P I。 但 其实 我们 现在 看到 包括 a APP 在内, 他的 用 的 方法 可能 更 直观。 当然了 可能 他 对于 这种 方法 是不是 最好 都有 这个 别的 看法。 如果 大家 看我的 代表 那个 demo 的话, 它 其实 就是 控制 你的 这个 屏幕 对 吧? 在 你的 屏幕 上 你 原本 人 应该 怎么 点的, 然后 他 去 操控 那个 屏幕 来 点。 所以 我 就 好奇 就 这 两种, 就 你们 怎么 看待 这个 agent 的 最后的 这个 实现 方式 呢? 就是 这 两种 可能 需要 的 能力, 或者说 你们 觉得 他 未来 的 天花板 可能 会有 什么 不一样。

对讲 到 这个 问题 的话, 16年 的 时候 我在 OpenAI 做了, 当时 参与 了 一个 项目 叫 open a universe, 然后 当时 那个 项目 其实 就是 Monica 你 刚 说 的 adapt。 他们 现在 想做 的 类似的 一个 形式, 就说 是看 这个 screen, 然后 看 这个 屏幕 上 的 这些 像素, 然后 直接 输出 的 是 鼠标 和 键盘 的 控制。 但 当时 那个 时候 还没有, 16年 的 时候 没有 大 语言 模型, 所以 那个 时候 我们 都 是用 强化 学习 的 方式, 然后 这 泛化 能力 就 非常 的 差, 基本上 你 训练 一个 任务, 他 就能 做 一个 任务。 但 除了 这 以外, 他 就 什么 别的 都 做不了。

然后 另外 我们 也 发现 其实 鼠标 和 键盘 并不是 一个 很 好的 输出 的 一个 方式。 因为 它 其实 从 这个 robust 和 可靠性 的 角度 来说, 你 比如说 这个 鼠标 稍微 差 了 一点点, 其实 它 问题 非常 大。 而且 它 可能 输入 的话, 它 要求 这个 屏幕 的 像素 非常 的 高。 否 化 里面 如果 有 个 很小 的 一个 按钮 的话, 你 就 按 不到。 对, 所以 其实我 觉得 这个 方法 是 有 它的 问题 的, 所以 我 现在 更 看好 是从 语言 模型 曲线救国 的 一个 方法, 就是 通过 写 代码。 然后 这个 代码 其实 也是 可以 控制 我们的 浏览器。 比如说 像 selenium 这样的 这些 工具, 是 可以 通过 写 一些 代码, 然后 能够 模拟 鼠标 和 键盘, 而 不是 真的 控制 这个 鼠标 一定要 在 第302个 像素 这边 做 一个 点击。 所以 这个 是我 现在 的 看法。 当然 adapt 这个 公司 之后, 他们 产品 会 怎么样 目前 还 不知道。 但是 我是 觉得 就 是从 这个 大 模型 还有 多 模态 这些 角度 来 解 这个 问题 会 更好 说穿 了 就是。

还是 用 那个 next token prediction, next word prediction 作为 一个 目标 函数 来 实现 这么 一件 事情, 要 比 去 控制 鼠标 作为 目标 函数 更加 好。

对, 通过 写 代码, 通过 生成 文本 的 这个 方式, 当然 这个 训练 的话 可以 有 强化 学习 等等, 就 这些 方法 也是 可以 的。

对我 觉得 刚刚 James 提到 一个 很 好的 点, 就是 关于 多 模态 这方面。 我 觉得 包括 我 刚刚 点 网页 的 这个 例子, 如果 作为 蓝 规矩 mode, 如果 只是 把 这个 网页 的 dorm tree 什么 下面 乘三 里程, 你 会 发现 它 非常 乱, 然后 它 就是 R 的 非常 长。 但是 如果 把 它 渲染 成 一个 外 配置 的话, 其实 相对来说 是 或者 至少 对人 来说, 你是 更容易 知道 哪 应该 点 哪里。 比如说 它 render 出来 那些 那 高亮 的, 或者 在 下划线 就 highly active, 它是 一个 hyper link 肯定 可以 点, 然后 点 完 之后 可能 会 去 个 零 到 下个月。 一方面 我 非常 echo, 这个 就是 jim 说 的 multi mode 的 这方面。 然后 另外 一方面 确实 就是我 觉得 可能 就是 鼠标 点 不定 是个 坏事。 然后 可能 是 他 能够 说, 至少 他是 visually 和 他的 semantic ally 都是 有着 互相帮助 的 一个 成分。

我记得 当时 GPT41 出来 的 时候, 有一个 非常 炫酷 的 一个 demo。 就是 当时 greg brockman 在 纸巾 上面 画 了 一个 网站 的 一个 草图, 然后 拍 了 张照, 然后 就说 请 生成 一个 H T M L。 然后 跟 我 这个 草 差 多。 然后 G P4 能够 理解 那个 像素 里面 内容, 并且 能够 生成 这个。 对, 当然 现在 大家 都 还 用不了。

正好 聊到 这个 agent 最后 实现 形态 的 时候, 包括 最近 像 戴尔 这种 形态 的 时候, 我想 OK 其实 这个 并没有 跟 我 原来 完成 事情 的 方式 其实 还是 一样的, 只是 他 现在 是 另外 一个人 完成。 但是 如果我们 讲到 像 包括 像 我 to GPT 那种, 我 就会 想 如果 那个 是 我们 所 期待 的 agent 的 未来, 其实我 根本 就 不用 再看 那个 screen, 我也 不需要 知道 它。 他 到底 是 操作 了 哪一个 APP, 到底 是在 他 到底 是在 vik b 的 上面 去 订票, 还是 在 booking documents 去 订票。

我 觉得 这个 对于 所有 这些 tooth, 就是 to using 的 这个 tooth 意味着 什么 呢? 我看 前段时间 大家 不是 有 rumor 说 apple 也 在 做 他们的 L M 吗? 我想 他们 当年 siri 的 理想 如果 实现, 那 我们在 每个人 手机 上线 十个 上 百个 APP。 如果 真的 都是 由 这个 siri 来去 调动 的话, 其实 我们 根本 都 不需要 知道, 可能 都 不需要 下载 这些 APP。 那 这个 对于 以后 这个 APP 的 生态 又又 意味着 什么? 这个 到 企业 里面 那 对 企业 里面 这些 SARS 又 意味着 什么? 就 开开 脑 洞, 问 大家 这个 想法。

我 觉得 这 不需要 开 脑 洞, 我 觉得 这是 铁板钉钉 几年 以后 就会 发生 的 事情。 就是 那个 boss 不管 是 software bots 还是 hardware box。 Hardware box 可能 需要 硬件 的 那个 机器人, 可能 时间 要 长 一点。 就像 jm 刚才 说 的, 有 一些 挑战 对 吧? 技术 上 的 挑战。 但是 我 觉得 soft box 所谓 的 software box 就是 大 语言 模型 基础上 的 那些 那些 不管 是 agent 也好, 或者说 是 软件 也好, 我 觉得 是 会 成为 first class citizen。 也就是说 今天 的 sas 也好, enterprise 的 软件 也好, 其实 是 基于 前 一代 的 技术, 就 是不是 以 A I native 的。

当你 如果 能够 想象 就 copilot, 不管 是 写 github 的 copilot, 还是 microsoft 的 所说 的 office 3 sixty five 的 copilot。 我 觉得 copa 会 成为 几乎 每一个 enterprise software 公司 都 会有 自己的 copa 这个 产品, 而且 是 作为 主要 的 产品, 在 这 五年 之内 会 成为 他们的 主要 产品。 也就是说 今天我 跟 office 打交道, 我 还要 做 很多 事情。 但 以后 的 那个 copilot 会 帮助 我 做 很多 事情。 今天我 到 salesforce workday, 很多 事情 要 自己 去 workflow 追问 的。 但 以后 很多 东西 其实我 是 跟 在 打交道。 在 这个 cop ilo 作为 first class citizen 的 时候, 说老实话, 包括 我 作为 一个 程序员, 我 写 的 code。 这个 code 最终 是 为是 为了 跟 机器 打交道, 跟 boss 打交道, 跟 launch language model 打交道, 这个 是 还是 很 不一样的。

举 一个 很 简单 的 例子, 我 写 document 就是说 我 作为 一个 程序员, 我会 写 document how to 怎么 去 用 我的 以后 不需要 人 不需要 看 这些 东西, 一个 用 这个 软件 的 都是 机器 去去 学习。 所以说 更 重要 的 是你 要把 这个 机器人 friend 类 的 那个 document 给 产生 出来。 我们 应该 假设 这个世界 就是 今后 的 五年 会 发展到 语言 模型, 那个 boss 是一个 first class citizen。 然后 我们的 产出, 我们 所做 的 东西 要 为 他们 服务, 最终 其实 是 我们 自己的 生产力 提高。 因为我 我 做 任何 事情, 我 就要 跟 我的 system 说 一声, 我是 说 的 我说 的 system 是 large language model based a system large language model copy, 我 觉得 这 是一个 必然 会 发生 的 一件 事情。

对我 我 非常 同意 后卫 的 vision, 以及 我 觉得 这是 一个 解放 生产力 的 一个 新的 机会。 但是 如果我 作为 软件 开发商, 之前 我 能够 直接 面对 客 用户, 但是 现在 我 面对 是 中间 的 一个 中间商。 那 会不会 比如说 打击 我 作为 软件 开发商 的 一个 积极性, 或者说 我 in the future 如果 是 有一个 这样 一个 language mode agent 的 orchestrate 这些 软件 的话, 作为 软件 它 怎么 获利?

我 觉得 我们 人 打交道 就是 一个 口, 其实 这 可能 是 增加 了 一个 when lay of obstruction, right 我是 跟 一个 copilot 打交道, 我的 助手 打交道, 但 不 代表 我的 助手 in this case 是 软件, 对 吧? 这个 软件 还是 需要 不同 的 他的 agent 跟 他 合作 把 很多 事情 完成。 所以 我 觉得 软件 还是 需要 的, 只是 人 直接 打交道 的 会 很 不一样 一点。

对。 然后 我 觉得 就是 很 同意 浩宇 老师 刚才 提到 的, 我 觉得 现在 可能 几家 大 的 公司 有一个 很强 的 优势。 因为 他们 控制 他们 整个 生态系统, 以及 所有的, 比如说 我们 看到 windows co pilot, 像 这个 事情 就 很难, 比如说 adapt 这种 公司 就 很难 做。 因为 微软 控制 所有的 windows 背后 的 源代码, 他们 想做 什么样 的, 就是 浩 伟 老师 刚刚 提到 的 bot friendly 的 A P I 他们 就能 做。 但是 要 adapt 这样 一个 第三方 的 公司, 可能 只能 通过 鼠标 和 键盘。 他他 不是 不愿意 通过 代码, 他是 没有 办法 通过 代码。 还有 像 adobe 这种 什么 photoshop 等等 这些 工具 只有 adobe 有 所有的 这些 就是 native 的 一些 代码 的 A P I 等等。

然后 这块 我 觉得 大公司 是 有一个 很强 的 优势 的。 并且 他们 甚至 是 可以 把 他们 把 比如说 外面 一些 开源 的 模型, 可能 待会 会 提到 lama 2这样的 模型, 然后 能够 微调 在 他们的 这个 产品 的 A P I 上面。 那 这样 一个 模型 可能 就是说 它的 这个 通用 的 写 代码 能力 是 不如 GBD4。 但 它 就是 在 这个 专业 软件 的这 一组 A P I 上面 写 代码 能力 可能 强于 GBD4。 然后 这样 一个 模型 只 能够 有 拥有 这些 软件 的 公司 自己 去做, 而且 我 觉得 会 是 成为 一个 mote。

对, 其实我 对 关于 如果 A 真的 它 只能 接触 到 这些 A P I 层面 的 这种 调用 的话, 其实 也会 带来 另外 一方面 的 问题。 比如说 像 open I T S 有 那个 plugging in 的 那个 storm, 然后 你可以 naver 几个 plugin。 比如说 我 当时 问 了 一个 非常简单 的 问题, 谁 是 那个 twitter C E O? 然后 当时 英伦 马斯克 已经 stepped down 了, 当时 有 两个 plugging 都 可以 回答 这个 问题。 一个 他 吹嘘 自己 是一个 knowledge graph 的 plugin, 所以 ChatGPT 会 直接去 调用 那个 plugin。 然后 他 回答 的 是一个 比较 老 旧 的 回答 是 吧? 还是 max 还是 去 C E O。 但是 另外一个 party 是 work from ala 它 其实 是一个 能够 获取 网站 的话 和 connect internet 的 上 他的 信息 更新。 但是 无法 阿尔法 其实 也 不会 想到 他是 一个 能 回答 elon mask twitter 是 C E O 这样 一个 问题。 所以 就是 关于 如果你 确实 想 听说, 如果你 只能 调用 这个 A P I, 我 觉得 很难 去 放在 馒头 里 去 真的 把 这个 东西 做到 一个 错。

对。 而且 你 刚才 那个 例子 也 让 我 想到, 就是说 那 他 还 得要 知道 到底 哪一个 to 应该 去 调用。

所以 就是 feedback loop 特别 重要。 以及 回到 一开始 说 的 evaluation, 你 可能 一开始 maybe 你 吃 了 一次 亏, 把 这个 图 我的 A P I 描述 的 很好, 我 吃 了 一次 亏。 那 我 之后 我知道你 这个 图 可能 只是 需要 这个 A P R 只是 虚有其表, 那 我 下次 我 可能 就 不吊 你 了。 有点像 这种, maybe bandy 的 setting 的 这种。 我 至少 我愿意 try 一次, 但是 我需要 有 反馈 告诉我 这个 到底 行不行, 然后 使得 我 最后 A 的 知道 in the future al 怎么 去 调用 这些 A P I。

真的 就 提到 为什么 聊 agent 就 聊 那么 久, 我 就 发现 agent 的话 特别 有意思, 就是 我们 一 跟 投资人 或者说 researcher 是 有的 时候 大家 都会 invisible。 一个 非常 rosy, 非常 让 期待 未来 每个人 以后 都 有一个 自己的 agent。 但是 你我 我 那天 办 那个 活动 的 时候, 我不 收集 到 的 questionaire, 你 会 发现 大部分 的 人都 在 问, 到底 什么 是 agent 的 real use case。 因为 大家 现在 看到 的, 坦率 来说 很多 所谓 的, 尤其是 比方说 企业 强行 agent, 大家 觉得 好像 就是 一个 更 聪明 的 R P A。 我 觉得 是不是? 可能 浩 伟 刚 说 就是 所有 现在 的 action 的 设计, 可能 都 还是 基于 现有 的 这个 工具, 现有 的 本来 是 为人 设计 的 这个 流程。 所以 我们 看到 马上 能够 实现 这个 agent 的, 我 感觉 落地 都 还是 可能 未来 我们 回 看 都 是一个 很 中间 态 或者 很 早期 的 一个。

我 觉得 这件 事情 是 有 两方面, 一方面 就像 你说的, 就是 今天 的 agent 可能 它 基于 的 模型 是不是 够, 或者说 是 怎么样。 但 另外 一方面, 其实 更 重要 的 是 很多人 在 说, 这个 没有 什么 太多 的 industry 的 breakthrough, 就是说 已经 落地 的 agent 或者 即使 copilot 今天 也 不是 一个 production, 就是说 人人 都能 用 的。 就 我说 的 copilot 那个 微软 的 windows 的 co pilot, 其实 也是 在在 试。 还有 前两天 有人 在 传, 这个 东西 不怎么 work 或者 怎么样。

我 觉得 这件 事情, 我 觉得 大家 看 的 方向 是 错了, 为什么呢? 因为你 就 想 任何 一个 大 的 大型 的 软件, 不说 A I 不 A I 就是我 要 大规模 的 去 更新 一下。 怎么 都 是要 12个月18个 月 的 事情, 有什么 软件 什么 过了 两个月 就 完全 换 了 一个 面目 的。 没有, 所以说 没有 成熟 的 那个 deployment production, 我 一点 都不 意外。 我 觉得 可能 明年 我们 可以 开始 看到 一点, 但是 这 东西 一旦 起来 了 以后, 我 觉得 还是 很快 的。 所以说 我是 刚才 就说 五年 之内, 我 觉得 那个 agent boss being first class citizen, 我 觉得 是一个 铁板钉钉 看 得到 的。

而 俊 刚刚 也 提到 了 这个 拉马 前 两周, 吧? 这个 拉玛 这个 开源, 我想 对于 整个 业界 来说, 影响 也是 非常 的 大。 其实我 延续 刚才 我们 A 准 那个 话题, 就是说 假设 A 准 是 可能 他是 对 底层 语言 模型 要求 相当 高 的 一个 场景。 那 会不会 以后 绝大多数 软件 都是 基于 agent run, 那 是不是 说 谁 是 最 强大 的 agent 的 基座 的 模型, 那 是不是 就有 一种 赢家 通 吃的 感觉。 这个 对于 开源 的 模型 的 生态 又又 意味着 什么?

对我 觉得 拉玛尔 肯定 是一个 很大 的 一个 milestone。 因为 拉玛 二 它 就是 在 各方面 benchmark 上面, 比如说 比 外面 的 V 库纳 方 K 等等, 就 这些 技术 模型 都要 更好。 确实 应该 是 现在 开源 的 技术 模型 里面 最好的。 对, 但是 有一点 我 觉得 稍微 有点 失望 的, 就是 lama 2的这个 coding 能力 不是 特别 强, 而且 他们 当时 训练 的 时候 就 coding 这 一块 也没有 就 没有 加 足够 多 的 训练 数据。 当然 我 觉得 这 之后 老马 可能 2.12.2 他们 肯定 会 把 这个 补上。

对, 但是 我 觉得 agent 的话, 可能 这个 coding 能力 特别 强 就 特别 重要。 因为 coding 其实 也是 一种 推理 的 能力, 也是 一种 决策 能力。 所以 这块 我 觉得 拉姆 二 作为 一个 聊天机器人 这 一块, 我 觉得 已经 是 基本上 可能 到 GPT3.5 的 水平。 但是 在 推理 或者 coding 这 一块 可能 还是 弱 一些。 但 我 觉得 这 一个 现在 这个 开源 的 这个 社区 和 比如说 3.5, 我 觉得 在 这个 差距 在 慢慢的 减少, 这 是一个。

然后 第二个我 觉得 这次 怎么说 比较 惊讶。 就是 如果我们 看 老马 二 这个 论文, 然后 它 里面 超过 一半 篇幅 在 讲 C F T。 再 讲 他们是 怎么做 aligned, 其实我 觉得 这个 对于 企业 可能 特别的 重要。 因为 企业 可能 就是 宁可 他 拒绝 回答 一个 问题, 也 不能说 一些 非常 敏感 的话, 或者说 一些 非常 offensive 的 这些 话。 所以 我 觉得 拉马尔 可能 专门 是 为了 这件 事情 就 下了 很多 的 功夫。

然后 甚至 有些 时候 我 觉得 稍微 做 的 有点 过头 了。 比如说 大家 可以 去 试一下 拉马 270 billion 的 模型。 你 问 他, 你 能 说 hindy 就是 印度语 吗? 然后 他 会说 我 不能说 hindy, 你 必须 要 尊重, 世界上 那么 多 高手, 我不能 只是 就是 对于 我们 来说 可能 是一个 完全 无害 的 一个 问题。 但是 我 觉得 在 企业 的这 应用 里面, 可能 这个 是 非常 的 重要。

我有两个 小 观点, 一个 是 莫妮卡 一开始 提到 是不是 有你 发 的, 就 只有 赢家 通吃 这样 一个 局面, 我 觉得 最终 还是 要 看 谁 好用, 不管 是 开源 还是 闭源。 其实 很多 企业 用户 的 use case, 他们 也会 提到 一点, 就是 他们 可能 一 上来 并不是 很 care 这个 cost, 但 至少 说 我 quality 要 上去。 跨越性 上 值 之后, 咱 再来 谈 怎么 去 降本增效。 所以 回到 这个 开源 或者 闭源 也是 一样。 就是 如果 这个 开源 模型 不足以 强大 到 它 能够 撼动 闭源 模型 的 地位 的话, 我 觉得 归根结底 还是 回到 他 能力 问题。 其实 跟 开源 和 闭源 觉得 有关系, 但是 不是 很大。 另外 一方面, 我 个人 的 takeaway 对 拉曼 来说, 特别是 拉曼 兔 来说, 我们会 看到 各 大云 厂商 其实 也是 争相 在 集成 这个 拉曼。

2, compared to 之前 的 number one, 就是 一 这 一方面 也 是因为 它 确实 open 了 这个 commercial license, 但 这个 commercial license 就是 大厂 自己 不能用, 但是 大厂 可以 把 这个 包装 了 给 别人 用。 我 觉得 拉 万特 其实 还是 比较 实在 的, 因为你 看到 它的 paper 里面, 它 那个 training club, 其实 他 还没有 converge。 Which means 它 给 了 你 这个 再去 自己 做 domain n 的 pre training, 或者 是 自己的 时候 去做 翻译成 这样 一些, 或者 像 前面 提到 的, 如果 不行, 你 自己 可以 去 让 他 更 focus 在 code, 或者 让 他 更 focus 在 medical, 或者 更 focus 在 某 一个 斗 面的 这样 一个 机会。

对, 我我我 再 补充 一些, 就是我 觉得 第二 其实 倒是 反而 给 更多 的 公司 mode 了。 因为 用 GPT 这种 闭源 的 模型 只是 靠 一个 A P I, 就是 没有 mote 的。 但是 我 觉得 la m 2 的话 就是 这个 mode 可能 是 公司 里面, 比如说 自己的 A P I 就 刚刚 讲 的 可能 adobe photoshop 那些 A P I 然后 还有 公司 里面 自己的 很多 数据, 然后 他们 能够 微调 lama 2在他们 自己的 这个 数据 上面, 然后 这样的话 这个 模型 就 只 能够 就 私有 的这 模型 在 他们 这个 公司 的 痘痘 里面 就 能够 做 的 特别 好。 而且 可能 别人 别的 公司 想要 仿效, 就 只是 用 一下 GPT3.5 的话, 是 做不到 他 这个 效果 的。 所以 我 觉得 拉姆 二 这样 一个 更好 的 一个 开源 基座 模型, 其实 我 觉得 对于 更多 的 公司 business 上 来说, 我 觉得 可能 是一个 更强 的 一个 mode。 当然 我不知道 浩 伟 老师 怎么看。

我 讲一讲 我自己 看 拉马 2, 拉马 二 刚 出来 前 几个 小时, 我 其实 是 觉得, 不就是 N 的 开源 的 一个 model。 虽然 说 它 确实 至少 从 表格 上面 看出来, 数据 上 看出来 比 M P T 好 发展 好。 但是 大家 如果 记得 的话, 之前 的 两个月 感觉 是 今天 这个 比 你好 一点, 明天 那个 比 你好 一点。 但是 过了 其实 little ally 过了 几个 小时, 甚至 一两天 或者说 一两天, 我我我 就 我 就 改变 我的 想法 了。

我 为什么 改变 我的 想法? 因为我 觉得 以前 大家 非常 分散, 对 吧? 我 今天 用 M P T, 我 用 F L com, 没有 什么人。 Gravity towards 就是 都都 朝 一个 系统 去, 但是 拉马 去, 我 觉得 整个 工业界 jm 刚才 也 提到 了, 对 吧? 大家 那个 公司 都在 想要 自己 做 mode 你说 用 OpenAI 很难 做, 但是 我要 有一个 自己 有一个 模型, 很少 有 公司 自有 有 自己 from the very very you know beginning of the base model。 对 吧 都是 多 多数 都 是用 open source 的。

我 就 发现 其实 整个 工业界 都 在朝 这个 方向 在 走。 因为他 发 他他 觉得 这 是一个 我可以 商用 对 吧? 然后 以后 有 made 的, 以后 还 会有 层出不穷 的。 你 其他 的, 大家 对 他的 信 对 对 其他 model 的 就是 一个 信心, 我 觉得 不 那么 足。 然后 几天 之内, 几个 礼拜 之内 你 就会 发现 innovation, a lot of innovation, 这个 是一个 生态 的 一件 事情。 所以说 最终 我 觉得 我 我 觉得 会 蛮 成功 的。

我 觉得 他 成功 主要是 生态, 就是 让 这个 生态 有 这个 信心, 有 愿意 投入 投资。 我 觉得 今天 新的 投入 多数 人都 基本上 或者 已经 改成 潮 辣 妈 二 了。 不是。 所以说 我的 观点 并 不是说 拉马 二 这个 model 好 在哪里, 而是 说 大家 都 愿意 去 投入 在 这 一个 model, 而 不是 投入 在 20 20分之1 个。 就是 因为 以前 看 一个 好的 model 可能 有 20个, 对 吧? 都都 我 觉得 这 是一个 蛮蛮 大 的 一个 一件 事情。

另外一个 拉马 特 很多人 说 它是 android 的, 是 一个苹果 的 I O S。 我 觉得 这个 analogy 有点 对。 但 我 仔细想 了 想, 我 觉得 可能 更 像 的 还是 一个 P C 出来 跟 那个 大型机。 我 觉得 大型机 的 它 能力 可能 很强, 但是 最终 P C 机 出来 以后 就 鼓励 了 很多 innovation。

我们 就 去 想 一件 很 简单 的 事情, linux 对 吧? 这个 操作系统 今天 是 风靡 全球 的, 基本上 主要 的 服务器 都 是在 用 linux。 Linux 就是 当年 linux toronto, 他 就是 在 家里 用 一个 P C 就是 有了 这么 一个 P C 这个 P C 肯定 是 不能 跟 当 时候 最好的 机器 去 比。 但是 他 就 给 了 他 一个 opportunity 去去去 写 自己的 innovation, 写 自己的 代码, 然后 逐渐 的 发展。 所以说 我 觉得 OpenAI 或者说 这 一批 的 大 模型, 基础 模型, 或者 我们 叫 frontier model, 它 肯定 有 自己的 市场, 有有 自己的 business。 但是 lama 2就给 了 大家 一个 新的 一个 eco system。 这个 eco system 我 觉得 是 完全 不能 低估 的。 不是说 从技术上 来讲, 那个 比 人家 好 个 百分之十二十, 我 觉得 这 基本上 是 微不足道 的。 而是 说 这个 生态 我 觉得 是 基本上 是 可能 是 正式 成立 了。

我 这 浩浩 老师说 的 太好了, 因为 确实 是 lama 2出来 几天, 然后 on tric party 什么的, 就 把 它 转化成 一个 C 的 代码, 一个 C 的 native 的 一个 代码。 然后 还有 各种 比如说 况 tizer, 各种 整个 开源 的 社区 都 开始了 优化。 拉马 图 就 专门 为 这个 模型 做 优化。

你 前面 提到 coding 不好 的, 就 有人 专门 做 C Q L 的 那个 fine tuning。 然后 他的 那个 token size 不够, context size 不够, 然后 就 有人。

做什么 狼 拉马 什么的 这些。

对 中文版 的对 吧? 而且 就 短短的 两个 礼拜 之内, 就 一堆 的 innovation 出来。 我 并不 觉得 他 做 的 好不好, 而是 在于 大家 都在 这 上面 出力 了。 一旦 在 这 上面 处理 了, 我 觉得 这 是一个 很难 逆转 的 一件 事情。

我 觉得 是 有一个 品牌效应 在, 就像 当时 stable division 出来 以后, 然后 不仅 是 工业界, 还有 很多 学术 圈 里面 的 人都 在 stable diffusion 上面 做 很多 新的 研究。 比如说 著名 的 control net, 没有 stable fusion 就 没有 control net, 就 没有 后面 很多 的这 一套 的 研究 的 领域。

这么 想, 前段时间 不是 有 一篇 文章 还 挺 火, 也 挺 有 争议 的, 就是 google OpenAI 是否 真的有, 对 吧? 我们 刚才 讲 了 moto 这个 事情, 因为 以前 大家 看到, 可能 以前 所谓 的 小 模型 的 时代, 大家 会 觉得 这个 技术 好像 很快 大家 都 追评 都 差不多, 就 变成 打榜 游戏 了。 如果 再看 的话, 那大 模型 因为 这个 retrain model 需要 的 这个, 有些人 就 会说, 我们 不应该 用 以前 open source 的 这个 来去 比, 我们 应该 用 芯片 的 来去 比, 因为 它 前期 的 这个 投入 足够 大 了。

对我 觉得 你 pick up 挺好的。 我 更 觉得 模型 是 芯片 的 拿 log, 而 不是说 是 后面 的。 我 觉得 芯片 你 想 芯片 不是说 人人 的, 我 今天 想做 芯片 我 怎么 去 做对 吧? 但是 英特尔 A 做出来 一个 让 P C 能够 用 的 这个 芯片, 然后 我 就能 在 上面 做 很多 事情 了。 所以说 他 基本上 拉马 做 的 事情, 或者说 是 开源 做 的 事情 是 一般 的 个人 不太可能 有 这个 财力 能力 去做 的。 他 帮你 做到 一定程度, 一旦 做到 那个 程度 就可以 了。 然后 你 刚才 提到 的 闭源 模型, 或者说 几个 fronting model 跟 开源 模型, 我 觉得 这个 差距 还是 在那边。 而且 这个 差距 不会 是 在短期内 缩小。

因为 刚才 杰米 也 提到 了, 可能 拉马 2可能 是 3.5, 这 当然 也有 可能 有点 争议。 但 即使 是 3.5, 那 跟 四 还是 GPT4 还是 有 蛮 大 差距。 大 概率 会 发生 的 就是 google 也好, OpenAI 也好, 也会 有 下一代 的 产品, 在 几个 月 之内 都会 出来。 就是说 从 性能 上面 来讲, 我 觉得 会 是 甩掉 lama 2, 还 仍然 是 会有 不少。 但 这个 不是说 不重要 的, 因为 蓝 马腿 也是 在 往前走, 对 吧? 你 如果说 只是 六个月 到 18个月 落后, 但是 你 只要 一直 跟着 往前走, 我 觉得 是 这 这是 可以 的。

另外一个 就像 我 刚才 说 的, 这个 eco 上 给你 补 掉 很多 的 落地 上 的 漏洞 也好, 或者说 各方面 的。 否则 的话 你 光是 去 即使 是 Frank model 对 吧? 我们 也 知道 google 或者 anthropic, 我 本来 的 model 不错。

但是 我真的 就像 我 前面 提到 的, 你 真的 要 去 落地 做 一些 B2B的so f tware, 还是 有 一堆 的 东西。 你 如果我们 用 OpenAI 来看, OpenAI 没有 去 补 这些 漏洞, 他他 的 他的 engineer 只是 在 搞 A G I 对 吧? 他 没有 再去 想 我 怎么 去做 一个 part, 让 那个 做 B2B sor t的人舒 舒 服 服, 这 不是 他的 工作 重点。 但是 你 在 一个 lama 2这个 equation 里面, 人家 就会 发现, 这个 C 口 不行 的, 我 来 给你 补 C 口对 吧? 这个 语言 不行, 我 来 给你 补 这个 语。 所以说 我 觉得 即使 是 reasoning capability 差 个 好几个 月 对 吧? 六个月、 九个月、 12个月 以上 那个 生态 给 方方面面 其他 的 补助, 我 觉得 还是 非常 显著 的。

我 同意 这个 mode 可能 确实 不在 这个 生态 方面, 包括 比如说 像 2 model release 之后, 大家 会 各种 会给 大家 框架 tion, 给 大家 loa adaptations, 各种 插件 就会 有了。 如果 google 自己的 新 或者 是 open 自己 新的 模型 的话, 这些 Ortiz ation 这些 插件 都是 只能 自己 做对。 但是 在 base model 方面, 我 觉得 可能 这个 mode 还是 有 一些。 因为 这个 和 之前 像 Operating system 这样, 比如说 linux 这个 东西 作为 linux kernel 自己 它 如果 它 open source 了, 大家 比如说 这些 develop 可以 去 修改 这个, 可能 然后 使得 它 有 一些 bug。 比如说 它 就 直接 修改 完了 之后, 所有人 都 可以 procter 到。 那 如果 这样 做 类比 的话, 可能 没有 这样 一个 说 提升 lama 2模型 本身 的 这样 一个 比较 share 的 一个 这样 一个 community。 或者说 的 类比。 就是说 如果你 是在 上面 做 find tune, 但是 你的 fine uni 可能 是 for 某 一个 specific purpose。

但 很难说 大家 群策群力 把 这个 base model 的 能力 去 提升 上去。 这个 可能 需要 一方面 consolidate 的 一些 computer, 然后 另外 一方面 这个 base model 的 提升 可能 更多 的 是要 把 这个 present stage, 然后 不太 像是 open source community 现在 能够 去 help with 的 一个 事情。 所以 可能 在 base model 方面 确实 会有 一些 model。

对 呃 首先 非常 同意 哈威 老师, 还有 韩俊 刚才 提到 这 几个 点 我要 补充 一下。 我是 觉得 最强 的 闭源 模型 和 最强 的 开源 模型, 它们的 差距 只 会越来越 大, 不会 越来越 小。 理由 非常简单, 算 力 就是 开源 模型。 我 觉得 现在 大部分 人 做 的 其实 是 叫 scale down, 而 不是 scale up。 因为 这个 开源社区 里面, 大家 这个 G P U 什么 都很 有限, 所以 大家 更 愿意 的 是 做 比如说 框 tizer 这些 优化, 然后 让 它 跑 得 更快。 甚至 我 还 看 大家 是 想 把 lama 跑 在 iphone 上 面对 吧?

像 这些 事情 我 觉得 是 开源 的 社区 最 喜欢 做 的, 也是 可能 是 唯一 能够 做 的 几个 事情, 或者说 是 微调。 微调 在 一个 就 刚才 浩 伟 老师 提到 可能 C Q L 不够 好, 就 微调 在 C 口 上 也可以 做 些 事儿。 但是 从 纯 的 这个 叫 raw I Q 就是 这个 最强 的这 智商 上面, 我 觉得 就是 要 靠 算 力 堆 出来, 没有 别的 办法。 对, 然后 这 一块 的话 像 S L pic, 还有 open a, 他们 肯定 在 算 力 的 集中 程度 上面 是什么 等等 都是 肯定 达不到 的。 并且 他们 研究员 的 这个 能力, 包括 他们 最新 很多 算法 就是 开源 的 社区 不断 在 publish 在 公开 他们的 秘密。 欧巴 不 公开 于, 所以 这就是 一个 很 很大 的 一个 信息 的 不对称。

而且 OpenAI 就是 上次 entry, 有 一次 他 就 提到 如果 市面上 有 一篇 关于 transform 的 论文 的话, O B I 可能 一般 情况 下都 是 五个 月前 就试 过了, 或者 半年前 一年前 都试 过 这些, 然后 他们 只是 不 publish 而已。 所以 我 觉得 这 一块 的话, 就 从 这个 算法, 还有 包括 从 这 数据 的 排盘 和从 算 力 上 来说, 这个 闭源 模型 只会 走 的 越来越快。 对 最强 的 开源 模型 和 最强 的 闭源 模型 之间 的 鸿沟 会越来越 大。

然后 s topic 我 觉得 也是 属于 闭源 的 frontier 模型。 然后 我 觉得 s topic 目前 在 欧 基本上 O B I 第一, topic 第二。 但 我 觉得 他们 俩 跑 的 速度, 我是 觉得 会 超过 最强 的 开源 模型 跑 的 速度。 而且 我 觉得 现在 这个 市场 的 这个 饼 足够 大, 然后 我 觉得 欧派 现在 也没有 办法 serve 所有的 人, 所以 s pic 这 一块 我 觉得 他 肯定 是 还是 有 很多 business 可以 做 的对。 并且 O I 也 G P U 那么 有限, 就是 influence 也 需要 G P U, serving 也 需要 G P U。 然后 这块 我 觉得 最后 可能 就是 一个 在 芯片 上 的 一个 可能 最后的 market share 就是 跟 你 这个 芯片 的 数量 比。

我 觉得 如果 在 开源 community 的话, 其实 在 小 模型 上 做 迭代 做 实验, 可能 会 甚至 会 比 眉笔 在 大厂 之内 做 的 可能 会 更 花 一点, 或者 至少 会 百花齐放 一点。 使得 说 大家 在 这方面 积累 的 经验, 希望 说 能够 去 最后 用 scaling law contribute 到 开源 模型 的 那个 大 模型 的 最后的 那 把 枪。 对, 当然 也是 非常 同意 金云 说 的。 如果 就是我 发现 他们 毕竟 在 暗处, 然后 看 什么 看看 都在 明处, 然后 我 再问 你们好 的 东西, 人家 学会 去 自己 用 就行了。 所以 确实 猫 的 还会 在。

对我 几个 月前 跟 OpenAI 和 anthropy c 的 几个 星爷 的 人, 包括 空方 的 在 吃饭。 结果 一顿 晚饭 下来, 我 觉得 就是 一个 共识。 这个 共识 就是 jm 刚才 说 的, 我们 能够 领先 那个那个 开源 的 模型, 而且 这个 差距 会越来越 大说 的 很 开心。

主要 是因为 杨子 坤 不 在场 了。

所以 我 本来 是 期望 是一个 对打 的 一顿 晚饭, 结果 是 开开心心。

这点 我 还 挺 好奇, 因为 技术 的 这个 你说 如果 人才 再说, 最近 大家 经常 我看 那个 dream 范, dream 的 那个 twitter 也 提, 大家 觉得 现在 大 模型 更 像是 一种 炼金术 一样, 对 吧? 它 上面 有 很多 可能 这个 可能 不足为外人道 也, 或者说 给你 就 告诉你 了, 可能 你 也很 难 去 去去 复刻 的。 但 的确 我们 看到 人才 就是说 这种 所谓 的 商业 或者 技术秘密 的 这个 事情 就 到底 能 维持 多久。 因为他 再 想 去 在 暗处 人才 也是 流动 的。 那 到底 在 这个 里面, 你们 觉得 有 哪 一些 是 真正 的 无法 去, 我 也许 知道 也 无法 去 复制 的 这个 核心。

比如说 之前 GPT four 的 这些 link, 大家 都 可能 都 知道 他 一些 模型 的 detail 可能 90% 都 是真的, 比如说 什么 M O E 架构 什么, 但是 知道 了 又 怎么样, 确实 知道 不怎么样, 因为 大家 也都 可能 不 理解, 你 也 知道 他 大概 怎么 做了, 你 就 你 也 知道 他在 用 传送 了, 可能 就 稍微 魔改 一下, 或者 是 M O E 架构。 然后 这些 可能 大家 都 知道, 确实 这方面 可能 不太 能够 说 去 复制, 但是 能够 复制 的 是 一些 真的 是 一些 这方面 的 积累, 特别 是我 觉得 人才 差距 也 不大。 但是 主要是 说 你 要 能够 去 通过 这个, 还是 我 刚 提到 在 小规模 上 实验, 或者 是 这种 不断 的 china 的 error 中, 你 积累 的 这些 调 模型 的 这些 经验, 以及 它的 一些 很多 的 detailed 的 trip, 以及 包括 scaling law, 怎么 在 小 模型 上调 的 参数, 怎么 在 大 模型 上用。 但是 这些 的话 其实 也是 需要你 划算 力 去 学到 的 一些 知识。

对我 觉得 现在 顶尖 人才 基本 还是 在 比如说 open a and topic google 之间 流动 互相 流动。 所以 我 觉得 其实 最后 这些 trade secret 其实 也是 在 这些 闭源 的 frontier 模型 的 这些 组 里面 互相 流动。 所以 我 觉得 这个 闭源 模型 和 开源 模型 这个 鸿沟 还是 很难 bridge。

对 就 我 稍微 不一样 一点 看法。 我 觉得 今天 或者 过去 两年 你 看到 的 我 觉得 是 事实。 但 我 觉得 从 一个 长远 的 看法, 硅谷 的 历史上 从来 没有 人才 固定 在 这 几个 公司 里面 流动。 我不 觉得, 我 觉得 人员 流 出来 自己 就 包括 OpenAI 或者 怎么样 自己 出来 做 各种各样 的 公司。

然后 还是会 我 觉得 真正 能够 去 一个 mote, 不是 在 某 一个 individual 的 人才, 而是 在于 一个 collective 的 人才。 人 这个 collected 人才 其实 更多 的 是 文化 企业 的 一个 文化。 就 好像 有 太多 的 公司 颠覆 前 一代 公司, 难道 前 一代 的 公司 他不知道 怎么做 吗? 其实 他 知道 怎么做, 他 也 知道 他 也有 足够 的 人才。 但是 他 因为 他的 那个 商业模式 或者 leadership 各方面 的 原因, 他 就 没 做 下去。 更多 的 是 文化, 从来没 看到 过, 就 只 就 就 只有 一个 公司 能 做, 然后 另外一个 公司 不能 做。

我 觉得 长期 来讲 不存在 这个 问题。 但 这个 大 语言 模型 跟 以前 稍微 不一样 一点 的 就是 刚才 jm 提到 的 算 力, 对 吧? 算 力 是一个 因为 它是 一个 必要条件, 所以说 我 即使 我 今天 比 你们 这边 所有的 人 聪明, 我没有 这个 算 力 还是 没用 对 吧? 这是 跟 以前 稍微 不一样 一样 一点 的。 但 这一点 我 觉得 再 给 一个 长期 一点。 因为 算 力 这件 东西, 任何 一个 技术 你 就 你 我们 技术革命 经 已经 已经 经过 了 好几个 周期 了。

一百多年 你 会 发现 再 怎么样 的 贵 机 贵 的 技术, 只要 是 mass production, 只要 是 大规模 生产 的, 它 肯定 是 成本 会 大幅 的 下降。 所以说 我 觉得 用 再 长远 一点 的 观点, 我 觉得 算 力 也 不会 是 成为 一个 创新 的 一个 阻碍。 所以说 我 觉得 in the near term, 在 今后 的 一年 五年、 一年 三年 之内, 我 觉得 可能 就是说 那个 front model 它的 优势 会 持续 对 吧? 因为 人才流动 也 没 那么 快? 然后 那个 更多 的 是 算 力, 但 我 觉得 超出 三年 之外, 我不 觉得 这 是一个 最 重要 的 因素。

对我 觉得 这个 讨论 其实 特别的 特 特别 好。 然后 那 回到 其实 刚才 jm 有 简单 提到 一个, 就是 你说 现在 很多 企业 开始 想要 用。 这个 开源 的 model 吧? 圈 一个 它 自己的 这个 模型, 它 有 更大 的 flash book, 更大 的 灵活度, 可以 圈 个 更 动态 模型。

这个 我想 把 它 稍微 引申 一下, 扩展 到 一个 其实 也很 有 争议 的 一个 话题, 就是 是否 存在 所谓 的 domain 就 domain specific 的 这个 模型。 因为 刚刚 就 讲 这种 情况 是 说, 我是我 自己 企业 基于 自己 特殊 的 需要。 那 我们 现在 有 很多人 看到 说 他们 在 chain 医疗, 金融 等等 这个 领域 的 模型。 大家 怎么看 这些 模型? 当我们 基础 模型 越来越 强 的 时候, 这些 模型 它 是否 本身 是否 会有 壁垒, 或者说 是否 有 存在 这个 必要。

我 觉得 你 问 这个 问题, 可能 方向 就 不对, 因为 为什么呢? 你是 觉得 好像 闭源 的 跟 那个 domain in a specific 的 model 好像 是 对立 的。 我不 觉得 是 对的, 我 觉得 两个 都 需要 的。

作为 一个 企业 来讲, 其实 很多很多 的 task 不需要 很强 的 model, 不需要 很强 的 fronted model 去做 这些 事。 比如说 做 一些 我们 那个 named entity recognition 对 吧? 这种 这种 task 其实 已经 至少 从 我们 内部 来看, 今天 的 开源 模型 要 做 我们 内部 的 这个 N E R 这些 事情 是 绰绰有余, 不需要 好的 模型, 就是说 基本上都 是 能够 做到, 正确率 是 很高。 我只是 举 其中 一个 例子。

其实 我们的 那个 企业 里面 有 不同 的 task。 我 觉得 有 很多很多 的 task 不需要 front model, 就可以 做得 很好。 有些 东西 就像 我们 前面 也 提到 了 agent, 或者说 对 accurate 比较高 的, 我 觉得 是 需要 free 的, model。 所以说 我是 觉得 长期 来讲, 一个 企业 做 软件, 我 觉得 会 去 要 不时 的 去 借鉴 或者说 用到 一些 Frank 的 model。 但是 很多 时候 也可以 用 自己 做, 这 是一个。 另外一个 企业, 不管 是 金融 安全 还是 国防, 或者说 什么 领域, 我 觉得 总归 是 有 一些 数据 是啊 是 model 永远 拿 不到 的。 所以说 这个 时候, 你 必须 得 有 一部分 的 事情 是要 自己 做 的 事。

比如说 用 一个 开源 的 模型, 然后 的 所以说 我 觉得 是 属于 这 我的 一个 理念 是一个 it's a portfolio, 就是说 未来的世界 不是说 是个 model, or 一个 dm specific model, 而是 我是 觉得 都 需要 的。 你 就 看 一个 P C 上面, 它 有一个 六 的 C P U 对 吧? Intel 或者 M D 的, 但 还有 一堆 的 chips, 从来 没有 说 一个 P C 上面 只需要 一个 chip 就 够了。 所以说 我 觉得 potentially 那个 front 的 model 是 C P U 是 有可能 的。 但是 还是 有 大量 的 I O 也好, 或者说 做做 很多 事情 也好, 还是 需要 还有 doma specific 的 model。 我是我 觉得 这是 必须 的。

对我 我 很 同意 浩 伟 老师说 的。 我 就 补充 一点, 就 哪怕 现在 闭源 这些 模型 的 公司, 其实 他们 也会 提供 这 样子 一个 find tuning, 就 对于 某些 enterprise 的 一些 合作伙伴 的 一个 服务。 比如说 我 觉得 anthropic 可能 更多 的 是 to b 而 不是 to c 然后 O B N A I 也是, 还有 包括 OpenAI 其实 有一个 叫 OpenAI start of fund, 他们 自己 在 投 一些 他们 感兴趣 的 创业 公司, 其实 每个 公司 就是 一个 vertical。 比如说 举 个 例子, 有 一家 公司 叫 harvey, 然后 harvey 就是 open I 自己 投 的。 然后 我相信 他们 就是 有一个 可能 内部 的 一个 最好的 france model, 然后 专门 为 法律 去做 的 一个 fine tuning。 Harry 是 一家 A I 就是 flaw g 的 一个 公司。 对。

然后 这个 的话 我 觉得 可能 像 这种 frontier 模型 的 这些 公司, 他们 就会 比较 selective。 因为 他们 自己的 serving 的 这个 能力, 可能 就是 也是 局限于 现在 有 多少 芯片。 所以 他们 就会 挑 一些 这种 大 的 这些 partner。 当然 就是 需要 这个 服务 的 公司 肯定 有 很多很多, 所以 他们 服务 不 过来。 对, 但是 我 觉得 他们 其实 也是 能 提供 这样的 一个 darin 的 一个 能力。

对我 稍微 问 一下, 其实 刚刚 主要 提到 非常重要 的 两点。 一个 是 cost, 然后 这 cost quality trade of, 特别是在 这 这个 特别是在 enterprise 的 use case 里面 特别 重要 的 一点。 然后 about money, 第二 再 一个 就是 大家 都 提到 的 这个 privacy issue。 其实 这个 也 不仅仅是 在 企业 中, 比如说 甚至 是 可能 会 maybe invision 在 to c 的 这个 场景。 Maybe 如果你 算 力 或者 模型 或者 以后 允许 的 情况下, 你 可能 也会 把 自己的 过往 的 经验 或者 什么 作为 你的 你 自己 用 的 这个 language model 的 一个 corpse。 然后 它 也 只会 跳 在 你 自己的 私有 的 这个 模型 上。 但是 确实 privacy 和 cost 这 两个 可能 是 觉得 是 至少 让 这个 fine tuning 或者 是 自动 或者 customize model 有 存在 的 必要性。

好的, 上 半集 就 播送到 这里。 如果你 是用 小宇宙 听 这 期 节目 的话, 可以在 评论 区 和 嘉宾 们 互动。 下期 将于 明天 播出, 敬请期待。

这 期 what nex 科技 早知道 就 到 这里 了。 听 完 之后 如果你 有 任何 的 想法, 欢迎 在 评论 区 里面 给 我们 留言, 我们 每 一条 都会 认真 的 看。 如果 你喜欢 我们的 节目, 请 记得 给 我们 五星 或者 好评, 分享 给 更多 的 朋友, 也会 对 我们 非常 有 帮助。 你 也可以 单独 写邮件 给我, 邮箱地址 是 听 T I N G 艾特 声 点 F M, 我 都会 一一 回复。 同时 公众 号 和 微博 也可以 搜索 生动活泼 声 是 声音 的 声, 节目 相关 的 更多 信息 会 在 公众 号 里 出现, 微博 和 公众 号 都 会有 不定期 的 福利 给 到 大家。

如果你 想要 跟 我们 更加 紧密 的 讨论 和 分享, 或者 是 想要 认识 和你一样 有 求知欲 的 新 朋友, 可以 加入 我们的 微信 群。 进入 听众 群 的 方法 是在 公众 号 文章 中 扫 码 添加, 或者 是 公众 号 后台 回复 科技 早知道, 即可 获取 邀请码。 期待 你的 加入, 我们 下期 见。