We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode 75. 和OpenAI前研究员吴翼解读o1:吹响了开挖第二座金矿的号角

75. 和OpenAI前研究员吴翼解读o1:吹响了开挖第二座金矿的号角

2024/9/18
logo of podcast 张小珺Jùn|商业访谈录

张小珺Jùn|商业访谈录

AI Deep Dive AI Chapters Transcript
People
吴翼
前OpenAI研究员,清华大学交叉信息研究院助理教授,边塞科技创始人,专注于强化学习和人机协同。
Topics
吴翼详细解读了 OpenAI 最新发布的 O1 模型,认为其代表着 AGI 研究进入了一个新的阶段,即从预训练转向基于强化学习的后训练。他指出,预训练模型的数据挖掘潜力逐渐减少,而强化学习可以挖掘新的潜力,使迈向 AGI 的梯子往上加了几节。他认为 O1 模型的核心在于其通用能力和解决复杂问题的能力,尤其是在长逻辑推理方面。O1 模型的推理能力提升是通过强化学习的奖励模型设计、高效探索和合适的 prompt 选择实现的。强化学习的关键要素包括奖励模型、搜索与探索策略以及 prompt 设计,这三者缺一不可。吴翼还讨论了强化学习的泛化性、与人类学习过程的异同、以及如何通过强化学习来提升模型的推理能力并减少幻觉。他认为,提升模型的推理能力有助于减少模型的幻觉,因为强化学习可以帮助模型学习因果关系,而不是仅仅学习数据间的相关性。他还分析了强化学习的算力成本问题,以及如何通过调整推理时间等方式进行平衡。吴翼认为,O1 模型的发布证明了强化学习的潜力,为 AGI 研究带来了新的动力。他同时对 Scaling Law 的极限充满好奇,并相信全能的大统一模型最终会实现。他认为垂直模型的出现需要时间,短期内难以超越通用模型,但长期来看仍存在机会。最后,吴翼分享了他对 OpenAI 文化、组织模式以及强化学习未来发展的看法,并介绍了他目前在边塞科技从事的工作。

Deep Dive

Chapters
吴翼,边塞科技创始人、清华叉院信息研究院助理教授,同时也是前OpenAI研究员,从技术视角解读了O1模型,并分享了OpenAI内部视角。他认为,O1模型的推理能力提升是基于强化学习,预训练的“金矿”正在枯竭,强化学习开启了新的“金矿”,让AGI的梯子又多了几节。
  • O1模型的推理能力比之前版本有明显提升,但还不是最终版本。
  • OpenAI在用户使用端进行大规模推理出乎意料。
  • 强化学习是未来AGI发展的重要方向,它开启了新的“金矿”。
  • 强化学习的三要素:reward model、搜索和探索、prompt。

Shownotes Transcript

当时 为什么 叫 这个 模型 叫 草莓? 是因为 很多人 会 问 一个 问题, 说 star berry 里面 有 几个 R 其实 是 这个 梗 了。

那 为什么 要 q star 呢?

我知道 的 一个 如果 如果说 的 是因为 q star, 立刻 他们 决定 换 个 名字。 A G I 的 过程 就是 一个 挖矿 的 过程, 大家 要 挖 一个 材料 去 把 这个 梯子 搭 出来。 然后 你 原来 发现 个 大金矿, 你 就 预 训练, 你 就 一直 在 挖, 挖 着 挖 着 发现 好像 快 挖 没了。 但是 他 还有 的 蛙 才发现, 这儿 又有 个 新 金矿, 让 我们 再 挖 一 挖。

就是 19年 的 时候, 我在 open I 工作 的 时候, 当时 内部 就有 个 讨论。 当时 还是 dario 在 做 分享, 在 做 GPT3 的 一个 分享。 当时 有人说 这个 skin law 会不会 到顶? 因为 数据 只有 那么 多。 我记得 当时 dario 是 这么说 的, 他说 他 确实 有可能 到顶, 但是 先 让 我们 去 摸一摸 天花板。

Hello, 大家好, 欢迎 收听 张小军 商业 访谈录, 我是 小俊。 这是 一档 提供 一手 高密度 信息 的 商业 访谈 节目。 上期 节目 广 觅 在 open I O 一 的 问世 之前, 准确 的 预言 了 代号 为 strawberry 草莓 的 项目 走向, 以及 他 背后 暗示 的 A G F S 已经 转移 强化 学习 开启 了 新 赛道。

这 期 节目 录制 在 O 一 问世 之后, 我第一 时间 和 边塞 科技 创始人, 清华 叉 院 信息 研究院 助理 教授, 同时 也是 前 OpenAI 研究员 的 吴毅 聊 了 聊, 他的 研究 方向 正好 就是 强化 学习。 无疑 从 技术 视角 全方位 的 解读 了 O 一 模型, 并且 分享 了 只有 内部 视角 才能 看见 的 真实的 OpenAI。 Hello will 能不能 先 给 听众 朋友们 打个招呼?

Hello 大家好, 我 叫 吴懿。 然后 我 现在 是 清华大学 交叉 信息 研究院 的 助理 教授, 也是 边塞 科技 的 创始人。 我 一直 都是 做 强化 学习 相关 的 研究。

我在 跟 大家 介绍 一下, 吴懿 是 边塞 科技 创始人, 也是 清华 叉 院 信息 研究院 的 助理 教授。 然后 另外 你 还有一个 身份 是 OpenAI 的 前 研究员, 你是 19年 出去 的, open I2020年 离开 的, 听众 朋友们 应该 都 挺 好奇 你的 这 段 经历 的, 能不能 给 大家 先 讲一讲?

我是 2019年 2月份 在 瓯 博爱 工作, 是 工作 到了 20年 的 七月 底。 然后 就 美国 这 段 经历 也 比较 有意思吧。 我是 在 18年 的 时候 决定 回 交叉 信息 院 当 老师, 所以 当时 决定 在 回国 之前, 我 去 美国硅谷 的 工业区 待 一段时间。 当时 也 是因为 各种 原因, 因为我 当时 之前 跟 欧文 安 有 很多 的 学术 上 的 合作, 所以 我 就 去 那里 全职 工作 了。 然后 也没有 想到 后来 发生 疫情, 然后 也没有 想到 后来 欧文 他的 股票 会 这么 值钱。

所以 也是 一个 机缘巧合 的 一段 经历。

对, 挺 巧合 的。 那个 时候 其实 可能 差一点 就 去 google brain 了。 但是 现在 回过 头 看, 可能 google brain 的 这样的 组织 可能 哪里 都能 看到。 但是 OpenAI 这样的 组织 其实 还是 挺 罕见 的。 所以 也 挺 庆幸 自己 最后。

去了 B A I, 你是 有一个 二选一 的 offer。

其实 是 这样, 因为 在 那个年代 所有的 P H D 都是 希望 去 google research 或者 deep mind 的。 因为 他们的 学术 的 reputation 更好。 OpenAI 其实 在 ChatGPT 之前 的 很长 一段时间, 他 也 不再 做 特别 前沿 学术化 的 研究。 所以 在 那个 时间点, 其实 大家 的 一 选 并不是 OpenAI。 比如说 我是 U C 伯克利 读 的 P H D, 那么 我 一届 那 一届 可能 有 六七个, 除了 学术界 去 当 老师 的, 然后 找 工作 的, 其实 都 去了 迪 麦。 所以 大家 就是 更 喜欢 去 google 和 D 麦。 然后 当时 因为我 要 提前 回国 的 一个 客观 的 原因, 所以 google 那边 的 offer 下来 的 特别 慢。 所以 我 就说 我 不等 了, 我 去 购买 了。 所以 确实 是 非常 巧合 这件 事儿。

我们 今天 的 话题 其实 是 围绕 着 open I 刚 发布 的 这个 o one 来进行。 你 整个 试用 完 的 感受 整体 怎么样? 其实我 听到 了 很多 反馈 都是 觉得 贵、 慢, 我自己 试 了 一下 也 觉得 挺 慢 的。 有 哪些 是 基于 你 真实 体验 的 一些 观察?

首先 我 就 想说 现在 的 欧 镑 是个 preview, 所以 我 其实 一直 挺 期待 他 正经 的 欧 镑 是 怎么样。 因为 你可以 很 明显 的 感觉到 这个 o one 的 模型 应该 还是 比较 小的, 能力 不是 最强 的那 一 版。 但是 你 其实 也可以 感觉到 很多 不同 的 内容 了。 就是 它 确实 在 一些 需要 比较 长 的 逻辑推理 的 问题 上, 会 比 之前 的 版本 好 很多, 至少 在 同样 规模 大小 的 模型 上 会好 很多。 所以 慢 归 慢, 但 确实 它 能力 上 是 变强 的, 但是 这个 也 不是 它 最终 的 版本, 所以 它 到底 有多强, 我们 得 看 欧布 安 那个 完整 的 版本。

我 整体 来说 哪些 在 你的 预期 内, 哪些 在 你的 预期 外。

他的 能力 提升 其实 在 我 预期 之内 的。 因为 在 过去 的 很长 一段时间, 有 很多 朋友 你 大概 知道 欧文 安 有 这么 一个 模型 在 做 类似的 事情。 所以 这 事儿 并不是 很 奇怪 的, 大家 也都 知道 欧文 安 在 做 这么 事情, 像 strawberry、 q star 这个 事儿 其实 在 坊间 已经 传 了 很久 了。 但是 我 确实 很 意外 的 是 一些 技术细节。 比如说 他 真的 是在 用 使用 端的 时候, 真的 会 去做 这么 长时间 的 推理, 并且 它的 推理 的 长度 比 大家 想象 的 还要 长。 比如说 它 会有 上 几千个 头 坑 这么 长度 的 推理 链, 这个 是 我真的 没有 想到, 我 不敢 这么 做。 但是 可能 他 就是 希望 有一个 完全 不一样的 模型 出现了。

你 觉得 他 为什么 要有 这么 长 的 推理? 需要 使用 几千个 token?

这 事儿 很 正常, 就 说明 他是 在 推理 的 时间 上 真的 花了 很大 的 功夫 要 做 探索 或者说 做 搜索 这样的 事情。 因为他 要 尝试 很多 的 中间 的 思维 链, 而且 很 明显 的 是 他 这么 做 一定 是 有 回溯 的, 一定 会有 一些 搜索 的 过程。 他 可能 有些 地方 想 错了, 他 可能 要 重新 想, 所以 他 真的 在。

但 这件 事情 其实 几个 事情, 一 他 对 技术 的 要求 很高。 就是 在 真正 在 做 推理 的 时候, 你 其实 没有 那么 多 的 时。 比如说 你 可能 只有 10秒钟 左右, 你 要 去做 一个 复杂 的 搜索 和 推理, 这个 对 技术 的 算法 的 要求 是 很高 的。 第二件 事情, 对于 推理 的 成本, 整个 大规模 的 要 部署 这样的 一套 推理 系统, 其实 难度 也是 很高 的。 所以 我真的 是 挺 意外 的 是 open n 直接 上来 就 给 大家 做 这么 大规模 的 做 推理 加 搜索 的 这些 内容。 因为我 可以 想到 的 是, 如果 要 全面铺开 的话, 整个 推理 系统 的 整个 基建 是 完全 不一样的我。

想 问 你 一个 很 基础 出了 问题。 因为 open I 这 几次 新发 的 模型 的 名称 其实 都 比较 的 多变, 它 没有 顺延 着 我们 以前 以为 的 GPT3、 GPT4 来 取名。 比如 上 一个 是 GPT F O 现在 连 GPT 都 不用 了, 直接 来了 一个 新的 系列 命名。 他 取名 背后 你 觉得 体现 了 什么?

首先 我 得 说, 因为我 不在 O B A 工作, 所以 我不知道, 我 只能 说 一些 我知道 的 东西 和 合理 的 猜测。 就 比如说 OpenAI 的 这个 GP4O 它 确实 是一个 新 模型。 因为 之前 的 GPT 其实 没有 做 这种 all in all out 的 这么 一种 模型 的 方式, 就是 把 所有的 模态 一起 训练, 一起 输出。 其实 原来的 模型 不是, 它是 有 延续性 的。 但是 4O其实 是个 新 模型, 它 新 模型 取 新 名字 其实 不 奇怪。 所以 我 觉得 它 其实 用 一种 新的 范式 去做 一个 新的 模型, 好像 也 确实 应该 起 个 新 名字, 这样 比较 合理。 但是 我会 觉得 可能 他 所有的 这些 分支 进行 足够 的 探索 之后, 会不会有 一个 新的 融合, 所有 技 有 能力 的 一个 超强 的 模型, 会不会 比如说 GPT4.5 或者 5, 这个 我 觉得 我也。

挺 期待 的 o one 的 发布, 它 是不是 意味着 AJ 路线 出现了 一个 转弯?

我 其实 不 觉得 是 转弯, 我 觉得 是 大家 梯子 又 爬高, A G I 的 路线 上 是 有 retraining 和 post training。 Retraining 就是说 我 有 更多 的 数据, 然后 我希望 把 这个 数据 通过 预 训练 的 方式 训练 一个 很大 的 模型。 这个 模型 有 很强 的 能力, 他 有 很多 的 知识, 然后 有 很多 表现 可以 涌现 出来, 对 吧? 然后 经过 这么多年 的 发展, 其实 就是 open I 可能 从 1718年 开始 做 这样的 事。

做了 这么多年 之后, 其实 你 会 发现 预 训练 的 部分, 你可以 挖 的 金矿 会 变得 越来越少。 这个 时候 post training 发现 是一个 新的 大金矿, 对 吧? 因为你 可以在 上面 做 强化 学习, 你可以 做 探索, 你可以 做 搜索, 你 会 产生 合成 数据。 然后 这样的 post trading 很 可能 反过来 还会 反哺 预 训练 的 部分。 所以 我不 觉得 它是 一个 路线 上 的 转弯, 而是 阶段 一 过去了, 就 纯 芋 训练 的 阶段 过去了, 然后 走 到了 一个 预 训练 驱动 的 后 训练, 然后 以 强化 学习 为基础 的 一个 后 训练 的 阶段, 这个 阶段 会 让 迈向 A G I 的 这个 梯子 再 往 上 多了 几节。

你 觉得 今天 到了 第几节 台阶, 它 离 那个 终点 还有 多远?

所以 我 一般 会 这么说, 我会 说 A G I 的 过程 就是 一个 挖矿 的 过程, 大家 要 挖 一个 材料 去 把 这个 梯子 搭 出来。 然后 你 原来 发现 了 个 大金矿, 你 就 预 训练, 你 就 一直 在 挖, 挖 着 挖 着 发现 好像 快 挖 没了, 但是 他 还有 的 挖。 你 会 发现 我们 能不能 看到 第二 情况, 发现 这儿 又有 个 新 金矿 让 我们 再 挖 一 挖。 但 这个 新 金矿 它的 上限 在哪? 其实我 觉得 大家 没有。

看到 的这 两天 很多人 在 讨论 它 达到 了 x GPT 时刻? 就是 在后 训练 上, 还是 说 他 处于 更 早 的, 比如说 GPT3, 甚至 是 更 早 的 时间点。

我 觉得 这个 事儿 其实 比较 难 类比, 我 倾向 于 认为 大家 怎么看 这个 事, 如果 从技术上 看 的话, 那么 gbt c 3时代 是 有 很多人 会说 这个 A I 不好 用 的。 他 会说 这个 A I 我 让 他 去 回答我 一个 问题, 他 怎么 反而 还 提出了 新的 问题, 对 吧? 但 到了 ChatGPT 时代 的话, 因为他 强化 学习 R V I trip 做 的 很好。 所以 你 跟 他 问 一句话, 他 就会 回答 你 一个 问题, 让 这个 模型 变得 可用, 变得 产品化 了, 所以 一下子 就 火 了。

但是 它的 模型 基础 能力 其实 和 G P3是 没有 特别 大 的 差别 的, 没有 本质 的 差别 的。 G P3和 GPT2是 有 能力 上 的 本质 差别 的。 但是 ChatGPT 和 G P3 其实 没有 能力 上 的 本质 差别, 只是 ChatGPT 在 R H F 这个 instruction falling 或者 alignment 叫 对齐 上 做 的 更好。 所以 我们 来 对比 这个 时候, o one 能力 上 是 已经 往上走 了 一 荡 的。 但是 他 能不能 在产品 上 被 大家 发现, 就是 原来 我 觉得 不好 用 的 一个 模型, 现在 马上 变得 好用 了。

这个 事儿 其实 是 不知道 的。 所以 我 现在 会 倾向 于 认为, 至少 它的 preview 的 版本 可能 是个 GP30克 ChatGPT。 我们 就要 等 它 那个 正经 版本 出来, 是不是 会 促进 更多 的 人 去 使用。 或者 原来 觉得 ChatGPT 不好 用 的 人 会 觉得 ChatGPT 好用, 所以 这 是个 大 的 改变。 所以 我 觉得 那个 时刻 咱们 还是 等一等 open N I 的 后续 发布。

对于 这个 open I 的 O 1, 在你看来 我们 应该 关注 的 核心 要点 有 哪些? 你 能不能 给 大家 做 一个 解读?

我的 理解 是 两方面, 一个 肯定 是 说 他的 通用 能力, 就像 很多人 在 测试, 就是 给他 一些 奥数题、 代码 题、 编程 题 之类 的这 是一个 就是 看 它 到底 有 多 聪明, 这是 肯定 的。 但是 我会 觉得 更 有意思 的 一件 事情 是 像 ChatGPT, 对 吧? 它 其实 并 不是说 它 比 GPT3多 回答 出了 多少 找 更难 的 问题。 其实 他们的 这个 回答 难题 的 水平 没有 特别 大 的 差别。 但是 ChatGPT 做 的 好的事情 是你 生活 中 各种各样 的 复杂 的 问题, 你 都 可以 去 问 他。

所以 我会 想 的 是, 欧 旺 如果 能 带来 的 改变 是, 原来 大家 觉得 很多 在 做 A I 应用 的 人, 或者 其他 很多 普通 的 人, 他 不是 专业 用户 的 人 去 使用 这个 模型 觉得 不好 用 的 时候, 现在 我 有了 一个 更 聪明、 更 智能, 能 做 推理 的。 它 是不是 能 让 模型 原来 觉得 变得 不好 用, 现在 变得 好用。 比如说 你 希望 他 帮你 写 个 网页, 你 可能 原来 需要 写 非常 长 的 prompt。 但是 现在 是不是 说 我只要你 说 帮 我 完成 某 一个 事情, 我说 几句话, 这个 模型 自动 真的 可以 帮你 把 这个 事儿 完成。 因为 现在 很多 时候 用 ChatGPT 都 是要 做 prompt engineering, 写 非常 长 的 prom AI 才 可以 帮你 完成。 所以 我在 想 的 是, 有没有可能 真正 复杂 的 问题, 你 不再 需要 写 这么 长 的 prom, 它 就可以 帮你 完成 了。 我 觉得 它 会 是一个 非常 大 的 进步, 产品 上 的 进步, 它 不光是 它 做 数学题, 代码 题 的 进步。

比如说 两点, 就是说 第一点, 他的 真正 的 能力 提升, 给他 看做 最难 的 题。 P H D 的 题 也好, 算法 也好, 数学 也好, 这是 第一点。 第二点 就是说 这种 平时 生活 中, 原来你 需要 用 特别 长 的 prompt 才能 去 解决, 或者 还 解决 不好 的 问题。 这种 复杂 的 推理 和 逻辑 的 问题, 现在 能 不能用 比较 短 的 prompt 让 AI 自己 去 完成, 这 是一个。

很大 的 差别。 你看 它 preview 版本 有 做到 吗?

有 更 接近 吗? 你 这 它是 变得 好的, 它是 变强 了的, 我 还是 会对 它 完整 版本 多一点 期待。

这次 最 引人关注 的 一个 突破 之一 是 它的 模型 的 推理 能力 发生 了 一个 提高 和 改变。 Open I 给 大家 展示 了 它 在 数学 编程 以及 解决 一些 科学 问题 上 的 能力。 比如说 让 他 去 考 一些 数学 或者 是 算法 竞赛题, 然后 就 发现 O Y 比 G B T four o 提升 了 很多 的 倍数。 那 推理 能力 的 显著 提升 在技术上 是 怎么 实现? 它 背后 有 哪些 比较 关键 的 原理?

这里 有 很多。 比如 强化 学习, 怎么 让 模型 提高 推理 能力, 其实 是一个 很 复杂 的 过程。 比如 强化 学习 奖励 模型 要 如何 设计, 如何 训练。 比如说 如果你 要 去做 搜索 或者 要 去做 探索, 要 怎么 去做 高效 的 探索。 因为 其实 你 比如说 在 推理 的 时候, 你 只有 10秒钟 的 时间 去做 探索。 然后 这个 token 的 长度 可能 有 几千个 token, 你 怎么 才 要在 这么 长 的 推理 链 的 长度 内 去做 高效 的 推理, 这 事儿 是 挺 难 的。

然后 第三 就是 数据 的 问题。 你 强化 学习 是 需要 任务 的, 因为 任务 才能 对应 奖励 模型, 也就是 我们的 prompt。 到底 什么样 的 prompt 可以 去 带来 模型 能力 的 提升, 这 都是 不知道 的。 所以 整个来说, 它 跟 之前 预 训练 的 范式 是 说 我 只要 有 高质量 的 数据, 数据 越多 就会 越越 好的 智能 是 不太 一样的。 它 里面 从 数据 开始 有 prompt 的 问题, 有 探索 的 问题, 有 reward 的 问题。 这些 所有的 问题 加上 整个 强化 学习 这个 训练 框架 一起, 是一个 很 复杂 的 系统。 所以 我会 觉得 这 确实 是一个 新的 范式。

强化 学习 符合 我的 定。

首先 我们 大概 知道 的 事情 是 强化 学习 需要 很多 的 算 力, 因为 它 需要 让 模型 去 探索, 尽量 有 足够 大 的 算 力 之后, 模型 会有 更多 能力 的 提升。 比如说 我们 知道 之前 阿尔法 狗 就是这样, 阿尔法 狗 需要 很大 的 算 力, 之前 dota 也是 这样, deep mind 的 阿尔法 star 也是, 它 都 需要 非常 非常 多 的 算 力, 然后 有了 算 力 之后, 会 带来 模型 效果 的 提升, 但是 在 大 模型 这个 阶段, 它的 scaling law 代表 的 是什么? 是 算 力 的 提升, 让 模型 探索 的 越多, 它 有 更多 的 智能 呢? 还是 说 我 有 更多 的 更好 的 reward 的 数据? 还是 说 我 有 更好 prom 的 数据 能 带来 这个 模型 能力 的 提升。

这个 事儿 我 觉得 是 很 耦合 的。 我的 理解 是 现在 大家 的 理解 是, 如果我们 有 足够 多 的 算 力 给 到 强化 学习, 是 可以 带来 模型 的 提升 的。 但是 这个 算 力 比如说 乘 十倍 之后, 能不能 让 模型 带来 十倍 的 能力 提升, 其实 不太 清楚。 有可能 OpenAI 探索 出 一条 scaling law 的 路, 我也 希望 他们 能 探索 出来。 但是 我会 觉得 至少 根据 我的 理解 是 我会 觉得 他 很 有 希望, 但是 还 没有人 真正 走, 因为 这个 里面 很 复杂, 你不知道 scale 的 是 哪一块, 而且 甚至 有可能 有 一块 没有 scale 好, 它 整个 scaling law 都会 break。

一般 在 聊 强化 学习 的 时候, 它 包括 哪些 关键 的 要素?

我会 把 它 拆成 三个 部分。 第一个 是 reward model, 第二 是 认识 搜索 和 探索, 第三件 事情 是 prompt, 也就是 什么 题? 这是 三件 事情, 这 三件 事情 都很 重要。

我们 来 举 个 例子 来 聊 这个 事儿。 比如说 你 想 去 教 一个 初中生, 你 搞 竞赛, 然后 你 想 这个 老师 很 重要, 因为 老师 会给 你 反馈? 你 题 没 做对, 老师说 你 不能 这么 想, 这是 reward model。 Reward model 很 重要。

第二个 题 也很 重要, 为什么呢? 因为 一个 中学生 想 去 搞 信息学 竞赛, 你 给他 做 一些 小学 编程 题 肯定 不 合适, 对 吧? 你 给他 做 一些 P H D 级别 的 这种 研究 可能 也不 合适, 对 吧? 你 要 提高 他的 编程 比赛 的 能力, 可能 你 就 需要 给他 做 一些 合适 难度 的 题。 然后 这个 也是 不。

第三 就是说 你 让 他 去 怎么做 探索。 有些 学生 他 可能 比较 天赋, 他 就 知道 他 能 举一反三。 有些人 可能 不行, 他 怎么 才能 让 他 举一反三 呢? 这 是一个 推理 和 探索 的 过程。 比如说 他 一个 代码 没 写 对, 一个 题 没 做对, 他 能 不能自己 再去 想 怎么 把 这个 题 做对, 这 里面 也是 有 方法。 所以 这 里面 每一步 其实 都 比较复杂, 不是 那么简单。

的这 里面 最难 的 是 奖励 模型 吗?

我 觉得 它是 3分之1, 这 三块 都 很难, 并且 你 需要 把 三件 事情 都 做对, 才 可以 实现 能力 的 提升。 强化 学习。 它 为什么 难? 它 为什么 在 过去 的 这么多年 里面, 没有人 真正 的 去 大规模 使用 它? 因为 它 里面 有 很多 问题 必须 同时 做对 才 可以 有 效果。 只有 一个 好的 奖励 模型, 也 不能 保证 模型 的 能力 提升。 所以 这件 事情 是 导致 它的 门槛 比较高 的 一个 原因。

你是 为什么 会 研究 强化 学习? 你 当时 为什么 把 它 作为 你的 重点 研究 方向 之一?

原因 也很 简单, 因为 伯克利 是 可能 整个 北美 最早 开始 大规模 做 强化 学习 研究 的 学校。 然后 我 最早 做 强化 学习 是 当时 2016年 的 时候, 当时 14年 的 时候, 可能 伯克利 开始 大规模 的 投入 去做 深度 强化 学习。 这个 也是 当时 低 卖 的 发布 了 这个 D Q N 这个 算法, 也是 第一次 强化 学习 突破 的 算法。

我 大概是 16年 开始 做 深度 强化 学习 的, 然后 那时候 我的 第一篇 论文 也是 叫 valuation network, 是 大概 整个 领域 里面 最早 开始 讨论 强化 学习 泛化 性 的 一个 工作。 我 当时 也 拿了 NIPS16 的 best paper, 也是 很 巧, 确实 它 起源 在哪里? 比如说 后来的我们 希望 让 一个 agent 听从 人类 的 指令 去 完成 些 任务。 这个 其实 是 有 个 具体 的 名词 叫 instruction following, 就是 指令 遵从。 这个 指令 遵从 其实 最早 用 强化 学习 去做 的 时候, 也是 2017年 从 properly 开始 的。 所以 刚好 是我 周围 的这 一些 同学, 我的 这个 学校 就是 最早 一批 去做 强化 学习 的 这么 一个 集体。 所以 在 这个 集体 里面 你 耳濡目染 的, 你 就 会对 这个 事儿 感兴趣。

然后 就 开始 做了。 强化 学习 在 学术 圈 是 共识 吗?

在 那个 时候 我 觉得 他是 一个 在 逐渐 共识 过程 中间。 但是 像 伯克利 那种 几个 组 集体 转向 去做 强化 学习 的 还是 挺 少 的, 确实 挺 少 的。 我记得 当时 还是 1415年 这个 时间段, 大概是 我的 this is committee 的 一个 合作 的 老师, 也是 我是 委员会 的 老师, 就 P D A bill 他 就 开 了 一个组 会, 跟 苏联 的 所有人 说, 从今天开始 我们 要 全部 转向 defer enforcement learning。

也 挺 震撼 的。 他们 当时 是 看到 了 什么? 为什么 有一个 非常 大 的 压铸机?

这个 方向 的 压住 确实 是 需要 一个 非常 资深 的 研究员 去做 判断 的, 比如说 当时 原因 也很 简单, 首先 是 D Q N, 就 D Q N 当时 是 demand, 首先 是在 学术 圈 里面 做了 一个 很大 的 突破, 就是说 用 强化 学习 可以 去 玩游戏 了。 然后 在 那个 时间点, 也有 几个 比较 年长 的 博士生。 然后 当时 也是 sergi living 老师, 还是 博 后 的 时候, 当时 sergey 还是 Peter 比尔 老师 的博 后。 然后 他 当时 也是 自己 做了 一些 这样的 尝试, 发现 有 效果。 于是 这个 时候 Peter 就 拍板 说, 我们 现在 整个 组 集体 转向 deep reinforcement learning。 然后 当时 sergey 加入 U C bird 去做 这个 做 faculty。 因为 当时 很多人 就 朝 他 会 嘲笑, 他说 整个 的 这个 学校 就是 个 deep enforcement earning 学校。 但是 确实 是 这样, 因为 我们 去 看 open I 的 发展。

Open I 的 发展 其实 也 是因为 有 伊 琍 亚 这样的 人, 在 很早 的 时候 就 给 大家 指定 了 一个 方向, 并且 很早 开始 探索。 这是 很 重要 的。 是因为 你 做 一个 小的 公司, 对 学术界 也好, 还是 一个 start up 来说, 你 没有 那么 多 的 资源, 你 可能 只能 bat 一两个 方向, 你 bat 对了 就 对了。 错了 就 就 错了。 所以 真的 很 看 最 资深 的 这个人 到底 对 方向 的 判断 是 怎么样 的。

我 听 过 你 之前 在 石像 做 R L 的 技术 分享, 因为你 也 当时 讲 了 几个 经典 的 R L 的 算法, 它 其实 也有 一个 技术 的 严格。 能不能 给 大家 讲讲 从 最早 的 D Q N 到 中间 的 阿尔法 go 再到 后面 的 P P O 它是 怎么 一步步 迭代 的, 以及 open I 现在 使用 的 这个 P P O 的 算法, 它的 优劣势 有 哪些?

D Q N 是 最早 的 时候 的 破 圈 的 或者 产生 非常 好 效果 的 一个 算法 了, 叫 deep cute network, 专业术语 叫 offline reinforcement learning。 是一个 算 力 相对 需求 小 一些, 可能 是 说 它 在 理论上 有 更好 的 一些 性质 的 一个 比较 优美 的 一个 算法。 它的 特点 就是说 它 对 算 力 和 数据 的 要求 是 比较 小的。 但 它的 缺点 就是说 他的 探索 并不 直接 是因为 他 学 的 是 一个纸 网络。

因为 强化 学习, 你 最后 是 希望 产生 一个 agent, 产生 一个 策略, 它 能够 去 产生 一个 动作 跟 环境 交互。 但是 D Q N 这个 算法 并不 直接 训练 一个 agent, 它是 训练 了 一个 东西 叫 价值 网络 的 东西, 或者 叫 q network 的 一个 东西。 然后 通过 这个 网络 反向 再 推导 出 一个 agent 的 或者说 一个 动作, 所以 它的 优化 是 不 直接 的。 但是 它的 坏处 就是 你想要的 是一个 agent, 但是 这个 算法 并 不在 优化 一个 agent, 所以 它 会有 个 gap, 并且 这个 也会 导致 一系列 的 算法 上 scanning 的 问题。 但 它的 好处 是 它 确实 数学 非常 好。 第二 它 不需要 那么 大 的 算 力。

但是 对于 P P O, 就是说 P P O 大概 17年 左右, 当时 OpenAI 提出来 的 一套 算法, 也是 基于 之前 的 一些 工作 的 改进。 P P U 的 算法 就 比较 直接, 就是我 直接 训练 一个 agent, 我 直接 训练 一个 polis, 一个 策略 网络。 所以 它是 比较 直接 的, 并且 直接 让 这个 策略 网络 自己 去做 探索。 它 会 让 这个 策略 网络 自己 进化, 所以 是个 比较 符合 直觉 并且 比较 直接 的 一个 算法。

但 它的 缺点 就是 因为 它的 数学 性质 差 一些, 他 需要 让 策略 网络 做 足够 多 的 探索 才 可以。 所以 P P U 当 且 仅 当当 你 有 足够 多 的 算 力 的 时候, P P O 才会 有用。 所以 当 如果 你的 算 力 不够 的 时候, 你 直接 让 P P O 它是 没有 效果 的这 是 这是 很遗憾 的 一件 事情。 但是 当你 有 足够 的 算 力 的 时候, 那 P P O 的 效果 会 比 D Q 好 很多。 所以 这也是 为什么 你 会 发现 OpenAI 的 大部分 的 这个 算法, 大部分 的 强化 学习 的 项目 都 是用 P P U 来做。 然后 它的 dota 项目 也是 用 P P O 来做, 甚至 deep mind 的 星际争霸 项目 最后 也没有 用 D Q N 类似的 算法, 也是 用 类似 P P O 的 一种 算法 去做 的。 就是 因为你 当你 追求 最 极致 的 效果 的 时候, 你 就 需要 去 用 一个 效率 这个 效果 最好的 算法。 但 这个 效果 最好的 算法, 它 不是 效率 最高。

所以 现在 P P U 算法 是用 的 最多 的, 最 广泛 的。

其实 这个 东西 非常 看你 有 多少 资源 在 学术界。 如果你 会 你 去 看 的话, 这种 像 D Q N 类似的 叫 offline reinforcement 算法 里面 还是 挺 主流 的。 就是 学术界 因为 它的 资源 比较 少, 他 可能 跑 P P U 它 就 根本 就 没有 任何 效果, 所以 在 有限 的 资源 下, 大家 会 使用 offline l 的 算法。 比如说 像 D Q N, 比如说 像 之前 这个 I H F, 还有一个 很很 常见 的 算法 叫叫 D P O, 它 就是 一个 属于 offline R L 的 一个 算法。 所以 很多人 会 使用 这样的 算法, 因为 在 有限 资源 下 可以 取得 最好的 效果。 但是 如果你 有 比如说 10倍到20倍 或者 100倍的 算 力, 你 要 追求 最好的 效果, 那 肯定 是用 P P O。 是 这样的。

强化 学习 的 泛化 性 现在 能够 做到 什么 程度?

我 觉得 最好的 体现 其实 就是 大 模型 的 I H F 这种 对齐 的 训练。 我们 知道 ChatGPT 和 G D 3最大 的 差别 是因为 ChatGPT 做了 非常 好的 对齐 alignment 或者说 I H F 的 训练。 也 因为 这样的 训练 让 ChatGPT 可以 给 每个人 提供 帮助。 其实 强化 学习 在 有一个 比较 好的 预 训练 的 模型 的 情况下, 有 足够 多 的 数据。 然后 经过 比较 好的 人类 反馈 的 这样 对齐 的 训练, 是 可以 带来 非常 好的 泛化 的 效果 的。 所以 这也是 我 认为 我们 大家 都 觉得 GPT4 o one 它 只是 在 做 coding, 在 做 math 这种 非常 垂 类 的 问题。

其实 我会 觉得 他 应该 会有 非常 通用 的 推理 能力 提升, 这是我 相信 的。 因为 在 之前 其实 强化 学习 带来 这样的 能力, 所以 我不 觉得 大家 关注 的 点 应该 只在 数学 上, 只在 coding 上。 但是 能够 有一个 好的 方法, 让 所有的 推理 的 任务, 不光是 垂 类 的 任务 都 能够 有 提升 的。 所以 这也是 我 为什么 期待 它的 原因。

这 是你 期待 的, 但是 它 不能说 它 现在已经 实现 了, 因为 它的 真实 版本 还 没出。

我会 说 我的 很多 rumor 让 我 觉得 他们 好像 挺 有 信心 的, 所以 我 也会 很 有 信心, 毕竟 我 一直 做 这件 事情, 所以 我 一直 比较 坚信 这件 事情 是 可以 做成 的那 O B I 确实 有 最好的 人和 最好的 资源, 所以 他们 应该 能够 把 这个 事情 做成。

强化 学习 对于 实现 A G I 重要 且 本质 对。

我会 认为 它是 下一个 阶段。 就是 当 你的 梯子 的 第一阶段, 粗 梯子 都 爬 完 的 时候, 开始 搭 细 梯子 的 时候, 那 就是 强化 学习 的 大 梯。 这 two tips 可能 是 预 训练, 是 training。 对, 然后 现在 是 细 体 字, 是 post training。

因为 之前 杨智 琳 她 不是说 长 文本 是 实现 A G I 的 第一步, 这个 我不知道 你 同 不 同意。

我 同意。

那 现在 可以 理解 推理 能力 是 实现 A 债 的 第二步。

对, 强化 学习 事物, 大家 可能 觉得 要 实现 好的 推理 能力, 只能 使用 强化 学习 来做。 这里 我 经常 喜欢 举 一个 例子, 就是说 一个人 的 推理 能力, 比如说 我们 叫叫 因果 推理。 一般 大家 说 推理 都是 说的是 因果 推理, 因为 什么 所以 什么。 但是 预 训练 的 范式 其实 在 做 的 是什么 呢? 他 做 的 是 关联性, 就 相关性。 比如说 我 生病 了 要 吃药, 是 为什么 我决定 我 生病 要 吃药 呢? 是因为 我 生病 吃药 我 好了, 我 生病 没 吃药 我 不好。 所以 这 是一个 我 经过 这些 数据 我知道, 所以 我 生病 的 时候 应该 吃药, 对 吧?

那 预 训练 是 说什么 事儿 呢? 预 训练 是 说 小明 吃药 生病 好了, 小红 吃药 生病 好了。 他 就 会说, 可能 比如说 小蓝 吃药 生病 也会 好。 但 这个 事情 是 没有 因果性 的, 只有 相关性。 它 有可能 是 这 两个人 身体 好, 或者 他们 感冒 了, 七天 就 好了。

所以 我会 觉得 怎么样 才能 让 这个 A I 能够 有 这样 因果 推理 的 方式 呢? 他 需要 去 探索。 我 现在 我 生病 了, 我 吃 个 药 好了, 那 我 下次 不 吃药, 我 再 发现 没 好吃 了。 一个 负 的 reward 的那 有正 的 reward 和 负 的 reward 加起来, 我 就 知道, 好像 我 有 个 因果 的 事实 在 这儿, 就在于 我 以后 生病 了 应该 吃药。 因为我 知道 我不 吃药 会 不好。 所以 这是为什么 大家 就会 觉得 强化 学习 这种 让 AI 自己 去 探索 和 自我 进步 的 算法 的 框架, 是 可以 带来 推理 能力 的 提升 的 一个 原因。

预 训练 是 让 你 有 很多 的 知识, 而 强化 学习 是 让 你 提高 通用 的 推理 能力, 知道 因果 推理, 所以 这 是我的 一个 观点, 所以 我 觉得 长 文本 当然 很 重要, 因为 咱们 就 想? 我 去做 很多 的 推理, 那 我 也要 奸 过程, 我 也要 思维 链, 那 思维 链 可能 很长, 对不对? 比如说 咱 要 写 一篇 中国经济 的 分析, 或者说 这个 人工智能 的 分析, 那 我们 有 好多好多 材料 对 吧? 所以 你 要 能把 很多 材料 放在 这个 context 上, 让 大 模型 去 理解, 这是 第一步。 第二步, 这些 材料 放在 这儿, 大 模型 理解 还得 需要 做 推理。 所以 光有 long contest 其实 不 解决问题, 它 要 long contest 加上 推理 才能 带来 最终 的 智能, 对 吧? 对, 这 是我的 一个 观点。

因为我 之前 跟 广 密 录 了 一期 播客, 它 其实 讲 的 也 比较 多 的 一个 概念 是 self play R L。 它 跟 你说的 这个 R L H F 是什么 关系? 它是 两个 不同 的 概念 吗?

Self play 其 这是 强化 学习 里面 非常 特别的 一种 范式。 当 一个 问题 它是 有 对称 结构 的 时候, 你可以 通过 self play 的 方式 来 提升。 比如说 围棋, 比如说 游戏, 它是 一个 非常 对称 的, 就是 你的 对面 和 你是 一样的, 你可以 反过来。 如果 一个 问题 有 这样的 一种 特别 好的 对称 的 性质, 就可以 用 sil play 的 方式。 这样 它的 好处 是因为 对面 跟 你 一样, 所以 你 提升 一点, 你的 对面 也 提升 了 一点, 它 可以 给你 带来 新的 压力, 然后 让 你 迫使 你 自己 再 继续 进化。 因为你 进化 了 之后, 你 对面 也会 进化, 对 吧? 它 就会 保证 大家 永远 是在 一个 合理 的 难度 上 进行 自我 提升。

就像 一个 中学生, 你 给他 做 小学 的 题 是 没有用 的, 给他 做 博士 的 题 也没有 用。 只有 给他 做 他 能力 边界 的 题, 他 才可能 带来 最好的 能力 提升。 这是 sell play 的 核心 意义。

所以 但是 很多 问题 不一定 有 cell play 的 性质。 比如说 我们 做 数学题, 他 如果 要 去做 sell play, 他 需要 什么 呢? 他 需要 一个 出。

题 的 人和 一个 做题 的 人, 这 两个 东西 并 不对称。 一个 做题 好的 人 并不 代表 他 能 出 更好 的 题。 所以 soul play 是一个 如果 他 能够 应用 会 是一个 非常 好的 范式。 但是 它 不见得 能够 应用 在 每个 场景 上。 就 比如说 出题 的 难度 可能 和 做题 的 难度 并 不见得 谁 更 简单, 谁 更难, 它 可能 也 并 不一样 难度。 所以 其实 我会 觉得 open I 应该 做了 非常 多 的 算法 的 创新。

比如说 我们 可以 想象 的 是啊, 这个 大 模型 的 能力 提升, 并不 能够 简单 直接 的 套用 sl play。 当然 也有 可能 O B I 是真的 训练 了 一个 出题 的 模型 和 一个 做题 的 模型, 让 他们 自己 博弈。 有可能 但 这个 事儿 我 觉得 没有 那么 直接, 所以 我 才 会说 强化 学习 其实 有 三个 部分 非常重要。 Reward 很 重要, 这是 反馈 出题 的 东西, 出题 的 人 也很 重要, 这 叫 prompt。

然后 搜索 也很 重要。 我们 就 想 GPT4O 这个 欧 旺 对 吧? 欧 旺 在 推理 的 时候, 他用 了 10秒钟 的 时间, 用了 几千个 token 给 了 你 一个 好的 答案。 这个 显然 不是 self play 就 不一定 是 self play, 它 肯定 是 某 一种 非常 聪明 的 搜索 的 方式。 在 我们 如何 去 研究 A I 搜索 的 这个 议程 里面 的 这个 蒙特卡罗 树 搜索 也好, 还是 别的 什么 搜索 也好, 都是 有 很多 技术 在 里面 的。 但 欧布 澜 到底 是用 的 哪 一种 具体 的 高效 的 搜索 的 方式, 其实 大家 是 不太 知道 的。 因为 其实 任何 一种 经典 的 算法, 并 不能 直接 套用 到 强化 学习 这个 大 模型 的 范式 里面 去。 如果可以 的话, 过去 这么多年 都 应该 有人 做。 Self 类 是一个 你 想 从 2 go 开始, 2016年 开始 到 现在 这么 长 的 时间, 如果 没有人 做, 他 肯定 不是 因为 这个 大家 都 没想到, 因为 它 不容易。

通过 使用 它的 这个 preview 的 版本, 你 能 反向 复原 它 open I 的 那些 技术细节 吗?

有可能 吗? 我 觉得 我 我也想 努力 一下 我想 努力 一下, 就是 我会 觉得 有 一些 方向。 比如说 OpenAI 在 推理 的 时候 大概 花了 10秒钟 的 时间, 然后 能 做出 那么 长 的 思维 链, 那 他 肯定 不是 用 特别 经典 的 搜索 的 方式。 比如说 我们 想 下围棋, 下围棋 是 每一步 我 都要 做 搜索 的对 吧? 就是我 我我我 是 每一步 走 哪个 子, 然后 下一步 走 哪个 子, 是 特别 确定 的 一个 过程。 我知道 我 每一步 在 这个 点 上 应该做 搜索 了, 但是 你 想 如果我 做 思维 链 的话, 我 其实 不太 知道 我在 什么时候 应该做 搜索。 因为我 我 一百步 的 思维 链, 我 每一步 都 分叉 出去 搜索 一下 的话, 那是 十秒钟 是 搜 不 完 的。 所以 你 可能 需要 一个 很 聪明 的 方式 去 选择 在哪里 就是 做 搜索。

另外 一条 就是 我会 觉得 它的 基础 模型 应该 也 变强 了。 这个 其实 不光是 我 复原 它, 因为我 自己 一直 在 做 I H F, 然后 做 I L 和 大 模型 的 训练, 所以 我 大概 知道 是 强化 学习 的 这个 influence 过程 产生 的 很多 数据。 这些 数据 其实 可以 反哺 post training, 甚至 可以 反哺 预 训练 的。 当然 我们 自己 因为 不做 预 训练, 其实我 不知道 这种 这个 数据 对 预 训练 有什么 效果。 但是 我们 知道 强化 学习 产生 的 这些 正力 和 负力 和 探索 出来 的 这种 数据, 是对 post training 是 有 很高 的 价值 的。 我相信 open 肯定 做了 这样的 事儿, 所以 他们 之前 会说 很多 合成 数据 的 事儿, 所以 我 觉得 是 跟 他的 强化 学习 的 范式 是 有关系 的。 但 这 是我的 猜测。

O A I 它是 能够 通过 自我 迭代 学习 来 提升 推理 能力。 这种 学习 过程 是 怎么 实现? 它 和 人类 的 学习 过程 有 一些 差异 吗?

就是我 觉得 他 有有 相似 的 地方, 比如说 就像 我说 的, 人类 学习 因果 推断, 就是 结果 学习 因果 推断 是 怎么 来, 它是 需要 正 利和 负 利 的。 因为 我们 只有 知道 这么 做 是 好的, 这么 做 不好 你 才知道, 我 得到了 一个 经验, 对 吧? 叫 吃一堑长一智。 所以 这个 是 人类 也是 这么 进步 的, 所以 A I 也是 通过 我 我 A I 也 大概是 这么 通过 这样 类似的 方式 去 进步 的。

但是 我会 觉得 有一点 是 比较 有意思 的 是, 就 很多人 觉得 大 模型 的 训练 可能 纯粹 可以 靠 自我 迭代 去 进化。 其实 这件 事情 我不是 特别 认同, 是因为 人类 也 不可能 通过 纯粹 的 自我 反思, 完全 主观 的 自我 反思 来 实现 认知 的 迭代。 人类 是要 通过 田野 调查, 是要 通过 自己 去 实践, 对 吧? 是 需要 从 群众 中 来到 群众 中 去 要 吃 点 亏 你 才能 进步 的。 只是 说 人类 的 这个 吃的 亏 的 数量 不用 吃 很多 你 就 进步 了。 我 也不 觉得 说 OpenAI 的 这个 post training, 它 真的 完全 不需要 标 任何 数据, 是 纯粹 A I 自我 净化。

我 这个 事情 不 现实, 他 肯定 是 有 人类 的 某种 反馈 存在 的, 只是 说 这个 反馈 的 形式 到底 是 怎么样。 我 觉得 是 这个 reward model 肯定 需要 一些 人的 反馈, 但 这个 反馈 可能 不会 那么 多, 对 吧? 出题 肯定 需要 一些 人的 反馈, 但是 肯定 也 不要 那么 多。 所以 我 觉得 这 里面 是 很 有意思 的 一件 事情, 就是 到底 怎么样 才能 更好 的 使用 人类 的 反馈。 人类 提供 1% 的 反馈, 剩下 99% 让 AI 自己 进化。 但是 我 觉得 那 百分之 是 非常重要 的。

就像 一个人? 一个 学校 里, 就像 我自己 开 公司, 就是 原来 自己 从来 没有 干 过, 觉得 脑子里 觉得 我 一定 行。 出去 了 之后 才知道, 好像 现实 跟 你 想 的 会有 差别, 就是 这 样子, 就 这么回事。

奖励 机制 是 强化 学习 里面, 你说的 三个 核心 中的 之一。 大家 会 觉得 说 通用 的 这个 reward model 应该 如何 设计 和 计算 会 是 一个 很大 的 难点。 它是 实现 A G I 的 最后一个 block。

首先 我 要说 要 训练 一个 通用 的 奖励 模型 是 非常 困难 的。 但是 又 跟 我 之前 说 的 也是, 他 是不是 最后一个 block 我说 他 不见得。 因为 reward model 这件 事情 在我看来 是 整个 paradise 里面, 就是 整个 范式 里面 的 一 环。 但是 它 大概 有 三环, 就是 三环 都很 重要。 三环 都要 能够 scale up, 能够 有 它的 scaling law, 才能 让 强化 学习 的 这个 范式 有 scaling law。

那 对于 讲义 模型 的 这个 事儿 首先 它 为什么 难? 我可以 跟 大家 解释一下。 我不知道 大家 如果 大家 熟悉 理论 计算机科学 的话, 有一个 名词 叫 P 和 N P 就 P 等于 N P 是一个 非常 非 理论 计算机 里面 最 基础 最 通用 的 问题。 他 其实 讲 的 就是 你可以 认为 奖励 模型 就是 N P 类 问题, 就是 一个 给 一个 答案, 你来 判断 他 对不对 的 一个 一个 一类 的 问题。 现在 理论 计算机科学 就 觉得 好像 P 和 N P 大概 差不多 大, 但 N 应该 比 P 难 一点, 但是 它 好像 也没有 难 那么 多。 所以 我想说 的 事情 是, 奖励 模型 本身 它的 难度 和 解题 并没有 显著 的 简单。 就是你 能看懂 一个 题, 一个 答案, 它 到底 是 好 还是 坏 这件 事情, 它 确实 应该 比 你 把 一个 答案 写 出来 要 简单, 但 没有 简单 太多, 这是 理论上 就是 这么 一件 事情。 所以 大家 不能 指望 说 reward model 它 就 很 简单, 它 可能 难度 没有 比 你 train 一个 解题 的 模型 简单, 就 这是 第一件 事情 对 吧?

第二件 事情 是 很有可能 很多 问题是 没有 的, 就是 有可能 是 没有 universal al reward model, 这是 有可能 的。 因为 不同 的 人 就是 不一样的。 所以 我 觉得 推理 这件 事情 可能 是 有 universal reward 的 model 的。 但是 你 需要 对于 人的 偏好 有一个 非常 universal 的 model。

可能 这件 事情 不是 特别 现实, 但是 我会 理解 是 有一个 我们 能够 尽量 接近 一个 在 推理 问题 上 有 足够 泛化 性 的 reward model。 这个 我 觉得 是 现实。 因为 推理 问题 就是说 我 通过 A 推导 到 B 这个 东西 是 有 泛化 的 可能性 的。 但是 如果你 要 像 人类 的 偏好, 那么 有的人 就说 我就喜欢 吃西瓜, 有的人 就 喜欢 说 我喜欢 吃吃 葡萄, 这个 事情 是 没有 一个 准确 共识 的, 所以 我会 觉得 reward model 如果我们 不 把 他 想 的 那么 universal, 说 我 一定要 一个 满足 世界上 所有 问题 所有 偏好 的 一个 奖励, 那 这 玩意儿 估计 不 现实。

但是 我们 有没有可能 在 推理 问题 上, 也就是说 我 能 明确 找出 A 到 B 到 C 的 逻辑 的 这种 思维 链 的 任务 上, 找到 一个 比较 好的 reward model, 来 提供 一个 足够 好的 反馈 让 模型 进步。 这个 我 觉得 是 有可能 的。 但 同时 这件 事情 的 难度 跟 你 直接 训练 的 一个 奖励, 一个 好的 这个 大 模型 的 难度, 其实 不会 有 本质 的 降低。 所以 它是 很 耦合 的 一个 过程。 我 就 我会 给 大家 的 建议 就是 根据 我 过去 的 建议 经历, 也是 reward model 这个 东西 不太 有可能 说 有一个 单独 的 小组。

我不管 这个 模型 的 本身 的 能力, 我 闭 着 眼睛 去 训练 一个 reward model 这件 事情 恐怕 是 不太可能 的。 Reward model 的 进步 肯定 是 随着 这个 模型 本身 推理 能力 的 进步, 也能 产生 更 高质量 的 数据。 同时 你 能 反应 对 吧? 你 能 产生 一个 更好 的 reward model。 同时 这个 更好 的 reward model 能够 促进 你 这个 模型 再进一步 提升, 它 一定 是 耦合 的对, 这 是我的 一个 观点。

强化 学习会 比 预 训练 更难 吗?

它 更 复杂, 我 觉得 不能说 难 或者 不难。

预 训练 大家 理解 可能 就是 暴力美学。

强化 学习 也是 暴力美学。 只是 它 有 三个 部分, 每个 部分 你 都 知道 它 怎么 才能 让 它 暴力美学。 就像 易 训练 来说, 其实 它 暴力美学 也 挺 难 的。 因为 有 也有 大量 的 模型, 它 暴力 了 之后, 他 训练 失败 了, 他 训练 挂 了, 他 也是 有 技术 难点 的, 他 不是说 暴力美学 就可以。 但是 大家 大概 知道 这个 方向 是 这样。

强化 学习 就在于 它 有 三个 模块。 每个 模块 可能 都要 先 摸清楚 哪个 方向 是 对的, 然后 才能 把 它 组组, 然后 它 组装 在一起 对 吧? 然后 才 可以 包 里面 去。 所以 我不 觉得 它是 难, 是因为 当 你知道 每个 模块 的 方向 是 什么样 的 时候, 组装 不会 是个 大 的 问题。 但是 你 得先 知道 它是 什么, 我 觉得 GPT 的 好处 就是 因为 当时 GPT3OpenAI 比较 显示的 告诉 了 大家 这件 事情 该 怎么做, 所以 方向 是 清楚 的。 但是 现在 的 这个 非常 遗憾 的 事情, 是 大家 好像 普遍 不愿意 说 自己是 怎么做 的, 所以 就 需要 去 摸索。 真的 需要 一些 人 能够 比较 笃定 的 花 很多 的 时间 去 摸清楚 这个 方向 到底是什么。

感觉 大家 都在 黑暗 里 做 实验。

就是 很遗憾 OpenAI 从 一个 open I 变成 close .

ai 他 还 提到 一个 要点, 也是 你 刚才 提到 的, 就是 思维 链。 他说 使用 思维 链 来 处理 查询, 这 与 人类 通过 逐步 思考 来 解决问题 的 方式 相似。 那么 给 大家 解释一下 这个 思维 链 它是 怎么 实现。

思维 链 是 很 简单, 就 比如说 我们 想做 一个 大 整数 的 乘法 或者 加法。 如果 不用 思维 链, 相当于 心算。 思维 链 相当于 给你 一张 草稿纸。 所以 一般来说 如果你 只要 写 草稿纸 的话, 其实 你 只要 知道 怎么 列 竖式, 以及 你 只要 知道 怎么做 个位数 的 加法, 你 就可以 完成 任意 整数 的 这个 加减法, 这就是 思维 链。

因为你 有 个 草稿纸, 你可以 不停 的 写。 所以 这也是 我说 为什么 这个 context 的 length 很 重要。 因为 比如说 你 要 处理 非常 长 的 逻辑推理 的话, 你 真的 需要 写 好多好多。 不就 像 很多 数学 证明 它 写 的 很长, 但是 你 不 把 它 写 下来, 你 脑子里 可能 确实 容量 不够。 所以 不用 思维 链, 就是 相当于 说 我告诉你 一个 乘法 或者 加法, 你 现在 直接 帮 我 把 答案 报 出来, 这个 你 就 需要你 脑子 里面 这个 也就是 transform 里面 的 这个 好 多层, 它 能够 有 足够 的 表达能力 一下子把 答案 算 出来。 但是 有了 思维 链 之后, 允许 你 写 这 事儿 就 简单 多了, 这 逻辑 就在 这儿。

他 官方 介绍 里面 还 提到 说, 作为 开发 这些 新 模型 的 一部分, open 还 提出了 一种 新的 安全 培训 方法, 利用 他们的 推理 能力, 使 他们 遵循 安全 和 对齐 指南。 这种 安全 的 培训 方法 具体 可以 这么 试试。

首先 就得 猜, 我们 知道 之前 做 很多 安全 的 方法 都是 通过 R O H F 实现 的。 就是 之前 欧 班 其实 也 放出 一些 资料, 以及 很多 大 模型 的 公司, 其实 也都 是用 一种 I H F 去做 这种 安全性 的 调整。 所以 它是 一个 新的 I L 范式 的话, 其实 我会 觉得 安全性 也是 一种 推理。 这个 问题 你 该 说 不知道 对 吧? 它 本质 上 也是 一种 推理。 所以 我会 觉得 当 这个 模型 的 推理 能力 有 提升, 那么 它 也 应该 能够 把 这种 能力 和 训练 模式 应用 到 安全性 问题 上, 让 这个 模型 更 知道 怎么说。 I don't know, 它 应该 是 比较 贯通 的。

推理 能力 的 进步 能 进一步 消除 模型 的 幻觉 吗?

对, 这是 肯定 的。 有 两个 原因。 第一件 事情 是 幻觉 是 为什么 产生? 这个 其实 也是 我 之前 在 广明 那 做 分享 的 时候, 我 经常 讲 的 一个 问题。 幻觉 是因为 模型 不知道 因果性, 它 只 知道 相关性, 所以 会 产生 幻觉, 就是 模型 不知道 自己 到底 知不知道 这个 问题 的 答案。 他 就 根据 训练 模型 里面, 我 发现 好像 巴西 经常出现 在 足球 问题 里 你们的 回答 中。 所以 你 问我 世界杯 冠军 是谁, 我 就说 是 巴西。

这 导致 幻觉 的 原因, 第一个 可能性 是 预 训练 和 S F T, 因为 没有 复利, 没有 这样的 探索 过程, 没有 这种 反 事实 的 推理 过程。 所以 会 导致 模型 容易 学会 或者说 over fit 到 一些 相关性 上, 而 不是 因果性。 所以 这也是 它 导致 幻觉 的 原因。 所以 这也是 说 我们 如果 通过 强化 学习 去做 探索, 去做 这种 反 事实 的 推理, 有可能 能够 消除 这种 相关性, 而 能 学会 一些 因果性 的 可能性, 这是 第一条。

第二条, 就是 很多 时候 的 推理 它是 有 好多 步。 就是 很多人 当时 为什么 叫 这个 模型 叫 草莓? 是因为 很多人 会 问 一个 问题, 说 strap 里面 有 几个 R 其实 是 这个 梗 了, 大家 都 叫 草莓, 大家 老 喜欢 问 这个 问题。

那那 为什么 要 q star 呢?

我知道 的 一个 rumor, 如果说 的 是因为 q star 立刻 他们 决定 换 个 名字。

Q star 是因为 刚才 说 的 那个 算法 吗?

就是 这么 看起来 有点像, 这 不确定, 也就是 我们 猜猜, 我们 猜 就 知道 为什么这样 的 名字。 我们 来 看看 跟 什么什么 star 对 吧? 有 个 著名 的 搜索算法 叫 a star, 是一个 启发性 算法 叫 a star 这 是一个 在 搜索 这个 很 经典 的 规划 领域 里面 一个 一个 算 一个 搜索算法。 那 Q 就 知道 D Q N 对 吧? 它是 个 强化 学习 算法。 咱们 如果 这么 猜, 那 就是 D Q N 就是? 强化 学习 加 搜索, 所以 叫 Q S 的, 所以 这个 名字 起 的 挺好的?

但是 我 觉得 strawberry 更妙, 因为 大家 怎么 去 chAllenge 大 模型 有没有 推理 能力 呢? 就会 问 他 how many hours in rover。 因为 大 模型 老 说错, 所以 他们 就说 这个 strapper 又是 个 水果 也 挺好的。 所以 我会 觉得 这个 梗 都 挺 有意思 的。 所以 第一个 事情 是 我想说 的 是因为 强化 学习 可以 提高 这个 因果 推理 能力, 所以 会 消除 一些 S F T 和 训练 阶段 带来 的 幻觉。

第二 部分 是因为 很多 的 推理 问题, 比如说 strawberry how many hours 这样的 问题, 它 有 非常 多 的 中间 步骤。 我们 其实 会 发现 现在 的 这种 大 模型? 你 给他 思维 链 它 可以 效果 好 一些。 但是 有的 时候 即使 给 了 他 思维 链, 他 还是 不 能够 准确 的 推导 出 你 要 的 答案。 这个 思维 链 人 给 的 思维 链 还 不行, 或者说 这个 机器 自己 做 的 思维 链 还 不行, 还 不够, 对 吧? 他 可能 要 自己 再做 一些 搜索, 再做 一些 探索 才 可以。 所以 我 觉得 这种 推理 时候, 就让 他 自己 再去 做 一些 探索, 做 一些 扩展, 做 一些 搜索, 应该 是 能够 让 它 更大 的 概率 能够 触发 到 正确 的 答案, 然后 自己 能把 它 挑出来。

对, 这也是 我 觉得 是一个 很 有意思 的 点。 是因为 我 觉得 传统 的 所有 人工智能 系统, 大家 都 要求 这个 系统 一下子 说出 正确 答案。 但是 很多 时候 其实 不是 这样, 你是 允许 他 输 错 几次 的。 比如说 我们 之前 做 人脸识别, 或者说 判断 一个 图片 是 猫 还是 狗, 你 都是 需要 这个 模型 立刻 告诉你 他是 猫 还是 狗。 但 其实 不一定。 因为 人 来说, 他 可以 说 我 不确定, 我 再 想想 对 吧? 或者说 问 你 几个 问题, 他 自己 再去 查 碘 答案 他 都是 可以 的。 所以 open I 这么 做 其实 是 它 给 了 模型 一个 缓冲, 给 了 你 10秒钟 的 缓冲 或者 20秒的 缓冲, 让 你 不确定 的 时候 去 看点 别的 答案。

但是 之前 A I 的 范式 是 说, 我不管 你知不知道, 当前 都 给我 把 答案 写 出来。 因为 我们 人 其实 经常 会 出现, 我 算 着 算 着 算 着, 后来 不对, 可能 我 哪里 错了, 回去 一看, 这 写错 了, 改改 对了。 但是 你 没有 写 到 最后 一步 的 时候, 你 其实 不能 意识到 当前 你 当 之前 一步 你 写错 了, 对 吧? 但是 传统 的 A I 的 这样 思维 链 也好, 还是 这样 输出 的 模式 也好, 它是 不 允许 你 改 的。

这个 其实 也是 幻觉 的 一个 原因。 很多 时候 可能 这个 模型 可以 改, 对, 但 你 根本 没有 给他 改 的 机会。 所以 这个 事儿 也是 挺 有意思 的, 就是 这么 两个 原因 了。 一个 是 强化 学习 的 训练 的 时候, 本身 能够 消除 一些 幻觉。 第二 在 推理 的 时候 允许 你 去 探索, 允许 你 改 这件 事情 本身 就可以 极大 的 提升 这个 模型 的 推理 能力 的 表现。

推理 能力 的 提高 会 导致 算 力 成本 的 大幅 增加 吗?

会 的, 因为 之前 我们 也 说 了, 你 想 传统 的 预 训练 的 这个 算 力 模式 是 什么样 的? 我 有 一道 题 我 把 答案 给你, 然后 我 训练 结束了。 但是 你 想 推理 的 时候, 让 模型 去做 探索 的话, 会 出现 什么样 的 情况? 我 给 另 一道 题 你 写 了 一遍 答案, 模型 说 不对, 我 把 这儿 改改 再 写, 不对, 再 回去 改改, 写 对了。 所以 探索 本身 会 导致 每一个 数据 点 上 的 要求 的 算 力 变大 了, 对 吧? 原来 我们在 推理 的 时候, 直接 你 说出 答案 你 别 改, 现在 我 允许 你 改 10秒20秒, 所以 这个 事情 确实 会 导致 它 提升, 这也是 个 好事儿。

有什么 节约 算 力 的 方法?

所以 我 觉得 这个 事情 可能 我的 理解, 就是 我们 按照 当年 阿尔法 狗 其实 做了 一件 这样的 事情。 比如说 阿尔法 狗 其实 是个 非常 经典 的 例子。 大家 如果 去 看 阿尔法 狗 的 论文, 或者说 当年 阿尔法 狗 的 一系列 的 成果 的话, 他们是 做了 实验 的。 阿尔法 狗 当时 打 比赛 的 时候, 是 每一次 搜索 之后 有一个 固定 的 时间 让 他 去做 搜索, 它是 最强 的。 然后 他们 也 做了 一个 低 慢 也 做了 这样的 实验, 说 我不 允许 你 推理 的 时候 去做 搜 做 搜索, 我 就让 你 当前 出 一步 答案。 他 能力 也 挺 强 的, 也有 职业 极端 的 水平, 只是 说 没有 那么 高 的 水平。 所以 我会 理解 这个 东西 其实 是 可以 有 trade off 的, 就 无非 是你 要 做 强 的 模型。

我 通过 强化 学习 在 训练 时候 得到 的 强化 学习 post trading 的 一个 范式。 它 最后 是在 做 post trading 的 这件 事情, 它 会 导致 基础 模型 的 能 推理 能力 提升, 这件 事情 本身 会 导致 这个 基础 模型 有 更好 的 推理 能力。 当然 因为 强化 学习 的 这个 搜索 的 范式 在 推理 的 时候。 也可以 再 帮你 搜 10秒20秒对 吧? 如果你 要求 最 极致 的 效果, 你可以 这样 做。 但是 如果你说 不行, 我 就要 快。 其实 你 也可以 牺牲 一些 效率, 然后 去 说, 我给你 5秒钟 行不行, 给你 一秒钟 行不行, 我 直接 让 你 输 答案 其实 也可以。 只是 说 我 现在 会 发现, 至少 对于 现在 这个 o one preview 来说, 它 好像 不太 能够 设置 一个 推理 budget。

说 你 就 搜 5秒钟, 这个 他 还没有 做到。 但 我 就会 理解 这个 事儿 本身 也 挺 难 做 的, 因为 它 跟 围棋 不一样。 围棋 就是你 基本上 能 知道 你 搜 一 多少 时间, 你 让 我 多 5秒钟, 我 大概 能够 折合 出 我要 搜 多少 部。 但是 大 模型 不一样, 大 模型 的 每步 推理 的 长度 不太 确定, 所以 这 本身 就 挺 难 的。 所以 我会 觉得 这里 有 几个 事儿, 一是 O I 有没有可能? 我 以后 给你个 8, 我说 你 给 我搜 3秒, 给你 搜 5秒, 给你 搜 10秒? 它的 价格 可能 是 不一样的。 第二件 事情 就是说 有没有可能 这些 所有的 推理 最后 能够 返回 到 模型 本身, 然后 让 这个 基座 模型 能力 提升 之后, 我在 推理 的 时候, 我 你 不要 这些 搜索。

希望 整体 来说 O 一 让 你 觉得 amazing 吗?

怎么说呢? 我知道 这件 事情 很 长时间 了, 所以 他 不会 对我 一种 shock 的 感觉。 就是我 可能 跟 大家 说的是, 反正 open a 今天 下半年 要 放 个 模型, 大家 等着, 对 吧? 肯定 会 放。 然后 他 放 出来 的 那一刻, 反而 你 觉得 他 终于 放 出来 了, 然后 你 其实 会 更 期待 他的 下一版 模型 会 怎么样。

就是你 想知道 这个 强 化学 的 天花板 在哪里? 因为我 当时 印象 挺 深刻 的。 因为 当时 我在 工作 的 时候, 1920年 的 时候, 其实 G P3 在 19年 的 时候 我 就 已经 看到 了。 然后 你 就会 感到 这个 模型 跟 之前 是 有 很大 的 质 的 差别。 让 你 exciting 的 地方 是 在于 你 发现 就 当时 open 自己 内部 会 画 这个 scaling law, 你 会 发现 这个 skating law 没有 到顶。 所以 你 会 好奇 的 点 是 那个 skating law 到底 到 哪儿。 然后 我 觉得 强化 学习 也是, 它是 一个 skill 的 开始。 你 真不知道 OpenAI 能把 这个 skin law 顶 到 什么 地步, 所以 我会 觉得 后面 那个 点, 那个 skin low 的 曲线 是 让 我 觉得 好奇 的。

你 认同 jim fan 就是 英伟 达 的 高级 人工智能 研究 科学家 他的 那个 观点 吗? 他说 模型 不仅仅 拥有 训练 式 的 skinning law, 还 拥有 推理 层面 的 skinning law, 双曲线 的 共同 增长 将 突破 之前 大 模型 能力 的 提升 瓶颈。

对我 跟 他 很熟, 他说 的 一点 没错, 我 特别 同意。 他 基本上 很多 观点 都 挺挺 有意思 的。 因为 首先 我想说 的 是我的 观点 其实 跟 他 也 差不多 了。 就是说 我 觉得 推理 能力 的 scaling 其实 就是 探索 或者说 搜索。 我 对 同样 的 一道 题 一个 prompt, 我 允许 他 去做 他 自我 的 探索 和 迭代。 这个 本身 我 能不能 给他 更多 的 算 力, 让 他 更多 的 迭代 次数 之后, 直接 导致 在 同样 的 数据量 的 情况下, 他 通过 自我 的 迭代 提升 模型 能力。

这 是一个 乘法。 不确定 是 说 我 有 多少 数据, 我 有 多少 智能。 现在 I L 是 说 你 有 这么 多 的 数据, 我要给你 乘 上 一个 系数, 这个 系数 是 通过 算 力 和 模型 自己 带来 的, 所以 它是 个 乘法 双曲线 驱动。 只是 说 我们 发现 第一个 系数 可能 快 到顶 了, 或者说 大家 没有 看到 下一个 大金矿 在哪儿, 对 吧? 也有 可能 有人 有 个 天才 说 预 训练 其实 还有 个 大金矿 大家 没有 挖, 对 吧? 也有 可能, 但是 起码 我们 知道 的 知道 第二个 fact 是 说 强化 学习 通过 A I 自己的 探索, 正立 也好, 负面 也好, 加上 这种 reward 的 反馈, 它 直接 在 同样 的 数据 的 情况下 带来 了 更多 的 提升。 所以 就会 变成 两个 factor 乘起来。 所以 大家 会 觉得 第二个 就是 第二个 引擎, 它 不是 分开来 的。

它是 乘起来 的。 不能 总结 说 o one 代表 的 技术路线 是 重启 spring L O D 的 神奇 钥匙, 它 其实 是 两条 相乘, 这是 第二个 factor。 对 之前 大家 对 GPT four 有一个 诟病, 是 觉得 还 数据 比较 差, 语言 能力 更强。 这个 o one 其实 似乎 变成 了 数学 和 编程 方面 的 天才。 之前 大家 对于 大 模型 的 一个 认 知识 会 出现 一个 大 统一 的 模型。 那 o one 的 出现 会 不会改变 这个 看法? O one 的 模型 的 发布会 不会 意味着 未来 会有 更多 专注 于 specific error 特定 领域 的 AI 模型, 而 不是 一个 全能 全知 的 大 统一 模型。

首先 我 得 说, 我 觉得 他 肯定 是一个 全能 全知 的 大 统一 模型, 这是 肯定 的。 因为 有 很多 理论 的 工作, 学术界 的 工作 都说 了 很多, 说 的 很 清楚 了。 就是 当你 模型 参 数量 非常 大 的 时候, 是 很 容易 把 很多 垂 类 的 模型 把 它 合并 起来 的。 这件 事情 并 不难, 就是 理论上 可以 讲一讲 这是为什么? 就是 因为 在 一个 特别 高维 的 空间 里边, 很多 的 这样的 垂 类 的 模型, 它 其实 在 空 高 维空间 中 很 容易 是 正交。 然后 这个 正交 的 参数 很 容易 合并 起来。 所以 你 当你 真的有 很多 很 牛 的 垂 类 模型 的 时候, 你 要把 它 合 起来 是 容易 的。

所以 我不 觉得 欧 望 荟 是一个 垂 类 模型, 这 对于 OpenAI 来说, 他 想 把 它 合 起来 并 不难。 所以 这 是我的 第一个 观点。 就是说 极强 的 垂 类 模型 前提条件 是你 做 的 垂 类 的 这个 方法 和 你的 预 训练 或者 整个 通用 的 训练 范式 是 耦合 的。

所以 这里 其实我 得 说 一下, 就是 之前 google 其实 搞 了 一个 叫 alpha geometry。 A alpha geometry 的 路线 不可能 导致 通用 能力 的 提升, 是因为 它的 路线 选 导致 的。 因为他 是用 那种 非常 定制 与 数学 的 一套 方法。 这套 方法 不可能 反哺, 但 有可能 会 反补 一些 认知。 但是 他的 这套 框架 不可能 反哺 大 模型 的 基础 能力。 但是 OpenAI 对 吧?

我们 假设 我们 猜测 它是 通过 一种 通用 能力, 但是 在 专用 领域 上 进行 训练, 得到了 更好 的 数学模型, 那么 这个 东西 肯定 是 可以 回补 的 反哺 的 基座 模型 的。 因为 训练方法 是 通 的, 只要 它的 方法 是 通用 的, 那么 更好 的 锤炼 模型 一定 代表 着 更好 的 综合 模型, 这是 肯定 的。 只是 说 就是你 希望 他 最好 不要 是一个 五角星 的 模型, 对 吧? 最好 是个 圆, 是 这么回事, 就是你 不 希望 这个 模型 就是 GBD4 的 能力, 然后 硬 拼装 上了 一个 好的 coding 和 硬 拼装 上了 一个 vans 对 吧? 你 希望 它 合并 的 时候, 它 能 是一个 一个 圆形, 它是 一个 整体 更好 的 模型, 这 是一个。

第二 是 说 会不会有 更多更好 的 垂 类 模型。 这个 事情 我 觉得 在 短时间 内 应该 不会 强化 学习 的这 一套 训练 框架 其实 是 非常 昂贵 的, 它的 技术 也 不是 特别 成熟。 但是 我会 觉得 技术 都是 走 在 一个 越来越 成熟 的 这个 曲线 上 的。 就 比如说 GPT3, 可能 在 20年 的 时候 大家 还会 觉得 完全 不可 及, 对 吧? 但是 现在 你 想 我们在 24年 的 时间 里, 四年 过去了 之后, 其实 训练 G T3级 别的 模型 是 并不 困难。 所以 我 也会 觉得, 比如说 大家 现在 看 这些 2L的 范式, 会 觉得 它 很贵。 但是 我 觉得 也就是 在 一个 2到4年 的 尺度 上, 它 也会 变得 非常 常见。 所以 我会 觉得 如果我们 站在 一个 4到5年 的 尺度 上, 那么 我 觉得 在 4到5年 的 尺度 上 来看, 会有 非常 多好 垂 类 模型。

但 这个 垂 类 模型 它的 涌现, 我不 觉得 会 就是 因为 计算 和 这个 数据 的 成本 都 变得 很低 了。 但是 我 觉得 如果 按照 两年 的 尺度 去 看我 其实 不 觉得 会有 特别 多 垂 类 的 模型 出现。 因为 这个 技术 本身 还没有 降到 一个 大家 可以 使用 的 阶段, 这也是 强化 学习。 为什么 有 大 的 突 的 人 比较 少, 是因为 他 真的 很 吃 算 力, 很 吃 资源。

当然 我会 觉得 这 两年 的话 会有 一些 大家 觉得 最有 价值 的 领域。 比如说 coding。 Coding 是一个 很 推理, 但是 并且 有 很大 商业价值 的话, 我会 觉得 很多 的 资源 会 砸 在这里。 那么 在 一些 最 值得 砸 资源 的 领域, 会 出现 很 好的 垂 类 模型 的。 但是 要 出现 特别 多, 我 觉得 等到 四五年 的 尺度, 就是 20年 到 现在 来看 G P3 的话, 那你 想 G P3 level 的 这种 预 训练 模型 其实 还 挺 多 的对 吧?

但 这个 大 统一 模型 会 覆盖 这些 垂 类 模型 吗? 其实 他 做 的 很 优秀。

的这 是 有可能 的。 所以 我会 这也是 为什么 我说 在 两年 尺度 下, 你 希望 出现 很多 很 厉害 的 垂 类 模型 不是 特别 现实。 它 可能 是 会说 我 比 基座 模型 好 一点, 这 肯定 的 是因为 你 有你 有 垂 类 数据 对 吧? 你 有些 垂 类 的 经验, 那 这个 肯定 会 导致 你好 一点。 但是 我 觉得 会有 那种 特别 质变 的 垂 类 模型, 我 觉得 会要 在 尺度 更长 一些, 需要 这个 技术 变得 更 普及, 然后 算 力 成本 和 数据 成本 变得 更 低, 我 觉得 它 就会 出现。 现在 的话 可能 还是 靠 的 是因为 我 有 认知, 我 有 数据 这个 原因。

强化 学习 作为 一个 新的 技术 路径, 它 能 带来 弯道 超车 吗? 比如说 我 作为 一个 公司, 我 可能 在 强化 学习 上 做 的 更强。 我 可能 比如说 超越 OpenAI 有可能 吗?

我们 能 不能不要 把 贝斯 坦 放 OpenAI? Opi 本来 就是 世界上 做 强化 学习 最强 的 团队 之一, 对 吧? 就是 我们 不要 放 这样, 就是我 我 举 一些 我们 自己的 例子, 比如说 我们在 做 一些 数学 mass training, 我们 知道。

很多 团队 比 我们 人 更多, 然后 知道 怎么 洗 数据 的 经验, 对 吧? 我们 团队 可能 只有 五六个 人, 做 算法 的 可能 只有 五六个 人, 可能 别的 团队 有 十个 人 在 洗 数据, 然后 数据 可以 带来 很多 直接 的 效果。 但是 我们 确实 发现 可能 有些 团队 他们 通过 洗 数据 S F T 的 方式 可以 带来 很多 点的 很多 的 提升。 但是 其实 你 可能 完全 不 洗 数据, 完全 不 洗, 通过 强化 学习 也可以 达到 类似的 效果, 也是 可以 的。 但 只是 说 从 消费 比 上 看你 会 觉得 好像 还 不如 去 洗漱 去 便宜。 我 觉得 是 这样的, 我会 觉得 弯道 超车 是 有可能 的, 但是 不可能 说 我 绕道。

好, 这个 是我的 观点。 你 其实 是个 乘法 预 训练 是 第一个 项。 第二个 项 是 强化 学习。 你 强化 学习 它的 成本 就会 很高。 你 当然 这个 项 是 可以 带来 很高 的 提升 的, 但是 你 不能 第一项 太低。 所以 我 就 觉得 这个 就 变成 了 我 觉得 有可能 弯道 超车。 就是说 因为我 知道 用 强化 学习, 我 同样 的 算 力, 我 通过 算 力, 我 数据 是 比 你 少, 但是 我 算 力 我 有 更好 的 强化 学习 的 框架 和 我 然后 在 我 有 算 力 的 情况下, 我可以 做 的 跟 你 一样 好, 或者 比 你 还要 好, 这是 有可能 的。 但是 绕道 不可能, 就是 基座 模型 也 非常重要。

我 之前 也 发给 过 你 那个 别人 的 一个 推论, 他的 一个 观点。 他是 觉得 这个 范式 一下 垂直 模型 的 创业 机会 是不是 有可能 就 提升 了 呢? 因为 创业者 在 这 一波 浪潮 其实 也 挺 难 的, 又有 大厂, 然后 又有 技术 那么 领先 的 选手, 所以 大家 都在 找 可能性 的 机会。 他 就有 一个 假设 是, 第一 通用 的 reward function 难搞, 欧巴 也是 起了 个头。 第二 是 垂直 的 reward function, 结合 他 领域 特有 的 数据 和 可能 更有 机会 搞好。 如果 一和 二 成立 的话, 那 垂直 模型 就有 机会 大幅 超越 通用 模型 在 这个 垂 类 领域 的 效果, 这 或许 是 创业 公司 的 机会。 我 刚才 听 你 说完, 我 觉得 这 也 挺 悲观 的。

悲观 又不 悲观。 我 觉得 悲观 是 首先 我 就说 大家 不要 指望 这个 东西 是 一两年 之内 带来 特别 大 的 game change。 但是 如果你 把 它 放在 就 可能 一两年 内 他 垂 类 模型 的 机会, 还是 说 因为我 有 能 我 有 领域 知识, 然后 我有我 有 专门 的 数据, 对 吧? 这个 是 通用 模型 没有 的, 所以 我 肯定 能 做 的 比 通用 模型 好。 比如说 我们 当时 其实 给 金山 W P S 做 copilot 时候, 因为我 要 需要 去 适配 金山 的 金山 电子表格 的 很多 功能, 所以 我们 就 需要 去做 一些 专门 的 模型 训练。 我 经过 这样 训练 的 模型 肯定 是 会 比 通用 模型 要好, 对 吧? 这 是因为 我有我 有 垂 类 的 数据 和 垂 类 的 知识, 对 吧? 这个 是 这是 肯定 的, 这件 事情 从来 没有 变 过。

但是 希望 短时间 内, 比如说 一两年 内, 因为 有 新的 范式 出现, 你 就 希望 有一个 整个 绕道 超车 的 机会, 这是 不存在 的。 但是 我 觉得 如果 把 目光 放在 4到5年 的 角度 上, 那 我 觉得 还是 有 很多 机会 的。 所以 我会 带给 大家 的 建议 就是 反正 留在 牌 桌上, 因为 新的 范式 到 浦 式 肯定 是 需要 时间 的。

没有 这么 快。 O one 模型 的 发布 对 A I 行业 的 未来, 你 觉得 有 哪些 影响? 以及 它的 挑战 和 可见 的 上限 会 是什么?

带来 的 影响 就是 可能 英伟 达 又能 卖 一 波卡, 我 觉得 它是 证明 了。 还有一个 我们 不说 故事, 我 觉得 还有一个 第二个 factor 在这里, 大家 是 可以 去 挖 的, 并且 这个 挖 的 矿 看起来 应该 还是 很深的, 没有 看 到底。 所以 这就 说明 至少 我 觉得 我们 说 泡沫 也好, 还是 说 A 加 这个 梯子 也好, 正好 可以 往前走 一段时间。 我 觉得 这个 是 所有 相信 A G I 或者说 相信 有一个 通用 模型 存在 的 这么 一些 人 来说, 肯定 是 一件 好事儿。

就像 我记得 印象 也 特别 深, 就 19年 的 时候, 我在 open I 工作 的 时候, 当时 内部 就有 个 讨论。 当时 还是 dario 在 做 分享, 在 做 GPT3 的 一个 分享。 当时 有人说 这个 skin law 会不会 到顶, 因为 数据 只有 那么 多。 我记得 当时 darrel 是 这么说 的, 他说 他 确实 有可能 到顶, 但是 先 让 我们 去 摸一摸 天花板。 所以 我 觉得 做 基础 的 人 来说, 我 觉得 激动 的 点 就是你 会 发现 这里 又有 一条 新的 地方, 你 还 不知道 天花板 在哪里。 所以 让 我们 先 去 摸一摸。

你是 从什么时候开始 信仰 A J 的?

我 觉得 我不是 一个 这种 A G I 宗教 信仰者, 我 觉得 我 更是 技术 出发。 我 当我 看到 这个 技术 它 还没有 摸 到 天花板 的 时候, 我会 非常 希望 让 他 先 摸 到 天花板 再说。 所以 我的 A A G I 的 观点 也 不是说 A G R 以后 会不会 出现, 而是 可能 在 我 脑子里 有 1233个 步骤, 可能 先 预 训练, 然后 再 post training, 然后 再 是 怎么样 的 一种 共同。 比如说 human in the loop 的 共同进化。 但 我会 觉得 每 一条 技术路线 都 还没有 摸 到 天花板, 那 我们 就 先 摸 着。 我是一个 相对 乐观主义 者, 因为 我自己 是 做 A I 的对 吧? 就是我 知道 这个 方法 很 有 潜力, 那 我们 先 把 这个 潜力 炸 出来, 那 可能 是 未来 的 事情, 就是我 觉得 人和 A I 到 A I 这里 真的 足够 高 的 时候, 那么 人 怎么 跟 A I 一起 进步, 这件 事情 是 很 有意思 的。 就是 人 应该 给 A I 怎么样 的 反馈, 能 让 A I 自己 进化。

就是 我们 从 一个 大 的 范式 上 和 趋势 上 讲 的话, 预 训 的 模型 是人 给 了 他 大量 洗过 的 数据, 强化 学习 人 给 的 数据 就 变少 了。 因为 很多 数据 是 A I 自己 探索 产生 的, 也就是 所谓 的 influences time 的 cost 对 吧? 他 这个 东 这个 influence time 不是人 给 它的, 是 A I 自己 产生 的, 所以 人 给 他的 数据 是 变少 了的。 那么 随着 A I 能力 再 提升, 人 能够 给 的 数据 也 一定 会 变得 更 少。 也就是说 当我们 提供 的 数据 从 降低 两个 order 之后, 可能 是 强化 学习?

如果我们 再 往后 降低, 人 可能 只能 提供 再 少 两个 order 的 反馈 的 时候, A I 能不能 利用 这些 很少 的 点播 他 就能 进步, 就像 有的 时候 我们 去 请教 一个 老师, 他 就 跟你讲 了 两句话, 你说 我 顿 误 了 吧? 就是这样。 所以 你 希望 的 最后 AI 能不能 最后 有一个 地步, 就 可能 是 他 也 跟 人类 一样, 对 吧? 他 只需要 一些 非常少 的 反馈, 你 就 知道 这 事儿 该 怎么做。 所以 我 觉得 这 可能 是 下一阶段。

我 其实 觉得 挺 有意思 的。 因为 矿 之前 就是 让 大家洼 预 训练 的 矿, 然后 现在 告诉他, 原来 不止 有 这个 矿, 还有 强化 学习 的 矿。 所以 O I 内部 到底 是一个 什么样 的 结构? 它 同时 在 挖 很多 矿, 所以 还有 很多 矿 其实 是 我们 没有 看见, 对 吗?

首先 我 只能 说 一下, 我 当时 在 工作 的 时候, 我 还是 怎么样, 当时 open I 其实 是个 闭 着 眼睛 挖矿 的 状态。 19年 就是 整个 公司 可能 收敛 到大 模型 这条 路线 上。 它 有一个 特别 重要 的 时间点 是 2021年 的 时候, 他的 整个 robotics team 被 real g 了, 就是 大家 决定 不做 就 open 自己 不做 机器人 了。 他们 这些 人 去做 A P I 团队 去了。 基本上 从 那个 时间点 开始, 你可以 认为 open I 花了 大量 的 时间, 大量 的 精力 和 人力 再去 维护 这套 A P I。 这个 也是 open I 这个 人数 增长 的 一个 大 的 拐点。 基本上 在 221年 以前 都是 100人, 100人以下 之后 就 开始 人 特别 多了, 所以 这 是一个 拐点。

在在 之前 的话, 其实 大家 就是 做 研究 来说, 都是 说是 分散 做 的。 就是说 A G I 可能 有 决策, 所以 我们 做 强化 学习, 应该 有 交互, 所以 我们 做 多 智能 体, 然后 应该 有 视觉, 所以 做 视觉 应该 有 语言, 所以 做 语言 应该 还有 安全性。 这个 for set city, 就 好多好多 的 党 团队, 他是 这么 组织 的, 基本上 会 是 top down 的 一个, 但是 又 比较 分散 的 一个 组织。

但 强化 学习 确实 是 OpenAI 其实 花了 很多很多 的 时间 去做。 其实 也 是从 17年 前后 重点 做 强化 学习 一直 到 现在。 能够 真的 到 产品 上 有 很大 的 区别, 其实 还 挺 不容易 的。 我也 相信 他们 内部 应该 还有 别的 矿, 不知道 我们 知不知道。 但是 我 觉得 这 事儿 也得 说, 是因为 有 伊利亚 这样的 人 在。 我 觉得 首先 是 我们 得先 承认 open I 自己 内部 的 矿 肯定 还没有 挖 完, 对 吧? 而且 我 觉得 其实 内部 不止 伊利亚 了, 有 很多 的 人。 对, 当然 肯定 伊利亚 很 重要, 它是 指出 框 在哪 的 这个人。

对, 他 有 那么 多 的 不同 的 板块 需要 协同, 他的 协同 是 好的 吗?

没有 协同, 所以 是 没有 协同。 就是 在 我 那个 时代 就 大家 每个 组分 开 做, 然后 最后 只是 很 随机 的 就是 大 模型 这个 东西。 商业 上 成立 了。

其实 没有 什么 协同, 都在 闭 着 眼睛 挖。

这 确实 是 这样, 因为 挖矿 你 很难, 除非 有 先知。 我 觉得 就是我 觉得 强如 一粒, 他 也 只能 说 这里 这个 集体 方向 肯定 有 矿, 你们 要 这么 去 挖, 他 也 不能说 其他 这个 地方, 对 吧? 全世界 的 矿 在哪 我都知道, 他 也 不太可能。

在 OpenAI 工作 是一种 什么样 的 感觉?

我在 字节 待 过 很 长时间, 然后 我在 facebook 待 过 很 长时间, 然后 我在 欧伯莱 工作 过。 我的 感觉 这 三个 地方 其实 都很 不一样。 比如说 字节 的话, 我 觉得 字节 的 A I lab 其实。 很长 一段时间 会 业务 导向 比较 重 一些。 这 其实 是 大部分 的 公司 的 这个 lab 都会 这样, 所以 也不 奇怪, 是一个 很 成熟 的 一种 模式。 Facebook AI research 就 更 像是 当年 微软亚洲研究院 或者 别的 一种 形式, 就是 纯 发 paper。 就 会有 很多 的 很很 好的 researcher, 他们 就在 做 一些 前沿 的 工作, 然后 去做 论文。

Open I 是一个 非常 奇葩 的 方式, 是 在于 这个 组织 有点像 产品 驱动, 它 有没有 产品? 就是 在 早期 的 时候, 欧文 I 当时 的 K P I 是 说 我要 去 每个 组 做 一个 大新闻, 它的 大新闻 就是 发 博客 了。 所以 你 会 下 发现, 阿 瑶 团队 就 去 做了 dota 做了 一年 两年 发 了 两篇 博客。 然后 机器人 团队 就 做 拟 魔方, 发 了 两篇 三篇 四篇 博客。 然后 我们 多 智能 体 团队, 当时 我 就 做 high and seek 捉迷藏 对 吧? 我们 做了 一年 多 的 时间, 然后 发 了 一篇 博客, 那个 博客 可能 价值 几千 万美金。

为什么 是 发 博客?

对, 就是 欧巴 当时 的 内部 考核, 就 至少 我 觉得 在 在 我 那 两年, 一 可能 18年到20年 期间, open a 巨大 的 考, 这个 K P I 是 那个 博客 关注 量 有 多少? 他是 做 科研, 但 他是 一种 集中力量 办 大事 的 做 科研, 一种 有点像 产品 驱动 的 科研 方式, 所以 很 独特。

但是 你 得 确实 在 想, 这个 组织 的 模式 确实 适应 了 A I 的, 至少 在 open a 笃信 的这 一条 scaling law 的 路上 是 非常 合适 的。 因为 如果你 要 想你 笃信 的 是 scaling law, 那么 这个 项目 不太可能 是 有 一两个 优秀 研究员 带上 一两个 人 做出来 的。 他是 需要 很强 的 工程 投入 的。 所以 你 不太 能够 说 我 按照 论文 的 产出, 论文 的 周期 太短 了 来 考核 这些 人。 但是 你说 他 做 pure research, 纯 自由 探索 可能 会 太 发散, 但 你就是 做 产品, 现在 也 不知道 产品 是什么, 所以 它 这个 模式 其实 介于 中间。 因为我 觉得 是 不能 现在 我们 回过头来 去 看啊, 它 好像 是 先知, 我也 可能 是 失败 的。 只是 说 他 当时 这种 很 奇怪 的 这种 模式, 那 现在 来看 是一种 很 聪明 的, 顺应 了 他 scaling lord 这条 主线 的 一种 组织 模式。 但是 scaling law 在 他 验证 之前 也没有 人 知道 它是 对的。

而且 这个 模式 其实 也 不是 O B I 发明 的, 其实 是 deep mind 搞 出来 的。 因为 deep mind 的 搞 阿尔法 go 的 时候 就是 这么 搞 的。 但是 open I all in 了 这种 模式。

博客 的 点击 比较 多, 点击量 大 说明 什么?

说 大家 受 关注。 因为 比如说 你 要 做 一个 像 dota 这样的 项目, 它 或者说 skating law 这样 大 的 项目 的话, 那 肯定 怎么 判断 它 成 不 成功 呢? 肯定 是 大家 关 不 关注。

关注 能 带来 数据。

没有 任何 意义。 比如说 你说 我们 做 机器人 团队 去做 机器人, 你 魔方 你说 他 有什么 数据 价值 吗? 没有, 他 还是 个 科研项目。

他 这个 科研项目 需要 有 足够 的 attention。

它 本身 还是 个 branding, 它 其实 就是 做 open I 的 branding。 只是 说 这个 branding 的 出发点 是 为了 能够 大家 做 一些 大 项目, 这 大 项目 又有 价值, 或者说 大家 认可, 就 特别 简单 的 逻, 就像 阿尔法 狗, 阿尔法 狗 就是这样 的, 我们 要 去做 一个 大 项目 的, 大 项目 怎么做 呢? 我们 就 做 挑战 围棋吧, 这 大家 关注度 肯定 高。

当 一个 项目 在 外面, 就是 他的 博客 点击量 非常 的 高, 内部 会有 什么 反馈。

大家 很高兴, 没什么 反馈。

你 觉得 open I 的 技术 审美 好吧。

怎么说呢? 我 不能说 它 多好, 我 只能 说 他的 很多 技术 审美 是 top down 的。 因为 这些 人 比如说 笃定 skin law, 他 可能 top down 的 让 整个 团队 都是 奔 着 这种 方式 去做 研究。 它 不是 一个 纯 分散 的。 很多 研究院 是 说 我 有一个 不同 的 研究员 对 吧, 他 可能 想做 的 东西 不太 一样, 那你 就 去做 去吧, 没关系, 那 opens 是 比较 top down 的, 就是 它的 一些 这种 第一性 上, 比如说 我是 要 scaling law, 那 我的 每个 项目 都是 skin law, 但是 这是 scaling law 的 审美, 他 就 定 了 一个 审美 之后, 你 怎么做 呢? 你 随便你 就 知道 在 早期 的 时候 是 这样的, 然后 最后 他 涌现 出来 了 一个 GPT3, 因为 G P3 也 不是 大家 all in 去做 的, 也是 有 一些 人从 做了 GPTGPT2。 然后 大家 发现 这 可以 再再 花点 人 去 做吧。 然后 发现。

GPT3 真的 可以 是 属于 他的 其中 的 一个 团队 做 的。

可能 一开始 都是 几个人 做 的, 后来 慢 慢慢 慢慢 变成 一个 团队 去做。

这也是 一种 涌现, 在 组织 中的 涌现。

确实 因为我 有有 个 有 本书, 有 本书 叫 the greatest cannot be plan, 就是 伟大 不可能 被 规划 有一个 信仰, 但 我 觉得 还得 强调 就是说 这个 信 是 可能 是 错 的的, 大家 不能 厚颜 的 来看。 因为我 我 老是 会说 我说 open I 其实 同时 其实 有 很多 别的 信仰 的 公司, 他们 也都 存在, 只是 大家 不知道 而已。 比如说 我 是不是 举 个 例子, 就是 同时期 有 一家 公司 叫 vicarious, 大家 肯定 不知道 了, 他 最后 被 狄 曼 收购 了。 他的 路径 跟 欧 就是 完全 不一样。 他说 我要 做 逻 做 符号 推理, 他 就是说 我要 做 符号 推理, 我就是 要 去做 这种 纯 逻辑 的 这样的 推理, 让 A I 有 这种 泛化 性, 有 逻辑推理 性, 所以 他的 所有的 技术 审美 都是 这么 来 的, 但 他 最后 他 没 做成, 但 也 还 OK。

是因为 在 美国 的 这种 创业 的 生态 中, 这样的 公司 是 可以 被 收购 的, 还能 退出 的, 所以 大家 还是 有人 愿意 投 他们。 我 当时 其实我 组里 一个 师兄 就 去了 个 Carries。 然后 比如说 在 ChatGPT 之前, 最好的 chatbot 其实 是 另一家 公司 叫 semantic machine 做 的这 是一个 berkely stanford 的 这些 教授, 然后 还有 好多 别的 很 优秀 的 人 在一起 攒 的 一个 专门 做 对话 机器 的, 会 用 我们 fancy 写 的话 叫 chatbot agent 人家 也能 做 agent, 就是 在 ChatGPT 之前 的那 套 方法。 他们 也是 用 一种 非常 基于 编程 的 这种 中间 表征。

然后 做了 非常 多 的 工程 上 的 工作, 也 做出 了 一套 非常 好的 对话 系统。 然后 他 最后 被 微软 收购 了, 就是 大家 不知道 而已。 只是 最后 最 成功 的 发现 是 伊利亚 的 这个 bat 是 最 成功 的。 但是 我 确实 会 觉得, 因为 美国 的 这个 创业 生态, 让 很多 这种 做 研究 的 人 他 有 空间, 他 不用 去 担心 很多 的 事情, 可以 去做 这样的 研究。 所以 确实 是 这里 得 挺 说一句, 他 确实 挺 羡慕 硅谷 的。

是啊 对, 那那 open a 的 文化 是一种 什么样 的 文化? 它 管控 强 吗?

首先 我 得 说 就是 当 它 产品化 之后, 我是 不知道 的。 因为我 我我我 得 客观 的 说, 就 即使 按照 我自己 现在 为我 开 了 一段时间 公司, 我 觉得 管理 100个人的 公司 和 管理 现在 他 1000个人 几千个 人的 公 是 完全 不一样的。 在 这个 ChatGPT 出现 之前, 其实 O B I 没有 什么 特别的 夸张 的 产品 工作 要 做, 所以 基本上 是个 研究 lab 来做。 所以 在 那个 里面 其实 是一个 还是 比较 自由, 但是 有一个 主心骨 的 这么 一个 挺 自由的 地方, 没有 那么 多 的 管理。

没人管 你 上 不 上班, 而且 我 这几年 都 还 疫情, 对 吧? 没人管 你 上 不 上班。 对我来说, 我 下班 了 之后, 我 晚上 想 跑 实验, 我 肯定 还是 跑。 就是你 卡 控 那儿, 你 一看 就有 卡 了, 你 就 跑 时间 了。 所以 我 觉得 我 其实 觉得 在 美国 的 很多人, 他他 的 工作 是 蛮 自 驱 的, 就像 我们 读 P H D? 我 老板 一年 也 不见 过 几次, 但是 这个 其实 不是 一个 上班 的 关系。

就是 当时 你 在 这儿, 比如说 大家 讨论 好, 我们 想做 hidden sick? 然后 我 当时 就 想 一些 问题, 然后 有的 时候, 你 可能 有的 时候 就是 有 这么 好的 资源, 你 可能 想 一些 别的 问题, 你 也 用 它 去做 一些 实验, 就会 这样。 当你 这么 好的 平台 又 比较 自由的 时候, 我 觉得 一个 真的 喜欢 这个 工作 的 人, 他是 会 想 工作 的, 因为 工作 是 挺 快乐的。

问 一个 找 事儿 的 话题, 离开 后 看 后不后悔。

那 肯定 这 肯定 不后悔。 我 可能 是我 读书 读 的 比较 多, 所以 我 肯定 客观 上 说, 我 意识 到了 在 国内 做 很多 事情 会 比 美国 难, 但 我 确实 没有 想到 这么 难。 对, 就是 商业 上。 但是 你说 我 后不后悔, 那 肯定 是 不后悔。 因为我 其实 你 想 我 去 欧 恩爱 的 之前, 我 就 决定 我要 回国 了。 然后 当时 其实我 是 拒绝 了 自己的 offer.

字节 美国 的 office.

当时 中国 当时 字节 我 都 不知道 当时 有没有 美国 office, 18年 的 时候, 那 很早 很早 了 很早 的 时候。 对, 所以 我 肯定 是 不后悔。 因为我 觉得 我 跟 吉姆 聊过, 我说 你 考 不 考虑 回来? Jim 给 了 我 个 理由, 但 我也不知道 他是 匡 我的 还是 真 认真 的。 但是 我 觉得 他 那句话 蛮 打动 我的, 基本 的话 说是 他说 他 喜欢 vidia 这个 环境, 是因为 他在 美国 可以 做 stay of the art research。

对他 就说 到 说到 这儿 我 就 没什么 话 讲 了, 因为 确实 你 想做 最 一流 的 工作, 你 可能 必须 在 美国 做。 因为 这是 事实, 因为 现在 美国 的 趋势 就是 最好的。 但是 如果你说 我想 去做 一些 从 0到1 做 一些 自己的 事情, 那 我 觉得 中国 对 中国人 来说, 中国 肯定 是 最好的地方。 但是 你 能不能 接受?

你 在 做 从 0到1 的 事情, 就 比如说 我 如果 留在 我们, 那 我可以 现在 我 就在 做 strapper, 我 可能 可以 骄傲 的 在 X 上 说, 我们 对, 因为 很多人都 在 X 上 发消息, 我们 终于 可以 announce, 我们 做了 一年 两年 的 这个 工作, 我 觉得 太棒了, 我 留在 那儿 我 就可以 做 这样的 工作。 但是 我 回来 之后 我 就说 我 其实, 我们 可能 花了 很多 的 时间, 可能 花了 一年 两年 的 时间 重新 搭 了 一套 大规模 强化 机系统, 然后 再去 做 这样的 尝试。 然后 你 可能 资源 会 有限, 然后 你 想你 你 做 很多 事情, 你 可能 周围 能够 跟 你 做 有效 讨论 的 人 也 比较 少, 这是 客观 的。 但是 我 觉得 对我来说, 我 肯定 是 喜欢 这样的 一个 过程, 所以 我 才 回来。

为什么 你说 在 国内 做自己 的 事情 是 最好的?

因为 你是 中国人, 很很 简单。 对, 就是 一个人 想 做自己 的 事情 肯定 是在 他的 祖国 做, 但 不一定 是, 对于 中国人 来说, 我 觉得 他 想 做自己 的 一些 事情, 在 国内 肯定 它的 稀有 度 会 比 美国 少, 对 吧? 所以 你 有 更多 的 机会, 我们 客观 的 说。

最后 你 要不要 给 大家 介绍 一下 你 现在 正在 做 的 事情。

对, 我们 边塞 科技 就是 一个 去年 成立 的 一个 公司。 我们是 一直 专注 于 强化 学习 算法 和 技术。 然后 我们 也 希望 通过 强化 学习 来 能够 提升 模型 的 推理 能力, 然后 能 产生, 当然 我们 现在 会说 先 去做 最好的 垂 类 的 模型, 然后 希望 我们 能够 在 to b 和 to c 端 都 带来 一些 价值。 也 希望 我们 能够 一直 在 牌 桌上, 然后 到 四五年 后 技术 普及 的那 一天。

那 你们的 产品 是 怎么 规划 的那 我们。

to c 和 to b 的 产品 都有 一些 在 尝试, 然后 都在 做 探索。 因为我 觉得 现在 我们 也 做了 很多 娱乐 类 的 工具类 的 这种 探索, 我们 都 做了 很多, 还在 摸索 中。

好, 这 期 节目 就是这样。 如果 你喜欢 我的 节目, 欢迎 前往 苹果 podcast、 腾讯 新闻、 小宇宙、 喜马拉雅、 QQ 音乐 订阅 张小 珺 商业 访谈录。 如果你 有 其他 想 邀请 的 嘉宾, 想听 的 内容, 或者 你 有 任何 和 想 探讨 的 话题, 都 欢迎 各位 听众 朋友们 在 评论 区里 留言。 我们 下期 再见, 拜拜。