嗨 大家好, 罗永浩 的 直播间 开始 卖 云 产品 了, 还 上了 微博 热 搜。 可能 跟 大家 想象 中 不一样, 都 AI 时代 了, 很多 的 中小企业 依然 在 购置 服务器。 这里 有 一份 数据, 中国 信通 院 2022年 的 数据 显示, 在 美国 的 算 力 结构 中, 云计算 占 比 超过 了 60%, 欧洲 超过 50%。
大家 猜一猜 中国 有 多少? 只有 28%。 所以说 中国 的 算 力 资源 虽然 现在 是 稳居 世界 第二, 仅次于 美国。 但是 其实 现在 这些 算 力 的 利用效率 并 不高, 其中 一个 原因 就是 公有 云 这种 高效 的 算 力 模式 占 比 过低。
之前 老 罗 他 其实 自己 也 带 火 过 很多 的 概念。 我们 这一次 来看 一看 老 罗 能不能 引领 一场 企业级 的 埃 批 认知 运动, 把 云计算 这个 概念 推向 大众。 他 这次 的 选品 也是 覆盖 了 阿里云 众多 的 热门 产品价格, 也是 给出 了 史无前例 的 优惠。 所以 大家 如果 感兴趣 的话, 可以 去 淘宝 A P P 搜索 罗永浩。 3月31 号 晚上 七点, 让我们一起 围观 连续 创业者 罗永浩 卖 云 产品, 以及 他是 如何 解决 创业者 的 核心 痛点 的。
2017年, 谷歌 一篇 划时代 的 论文 attention is all you need, 掀开 了 这 一轮 人工智能 的 开幕式。 这 篇 论文 也是 大家 现在 知道 的 大名鼎鼎 的 transformer。 七年 过去了, 我们 看到 有人 在 这 篇 论文 上 加算 力加 算法, 开启 了 第三次 的 科技 浪潮。
今天 我们的 嘉宾 来自 metafile 的 研究员 田渊 栋 博士。 他 最近 也 发表 了 两篇 论文, 都 与 端 侧 的 小 模型 相关。 由于 离 应用 更 近, 并且 在 解决 更加 实际 的 问题, 所以 他的 论文 经常 被 很多 工业界 的 人 问 到。 而 过去 的 这些年, 他 所有的 研究 都在 回答 同一个 问题, 就是 神经网络 是 如何 工作 的。 今天 我们 就 一起 尝试 探索 这个 问题, 也 跟 大家 一起 聊 一 聊 最近 大火 的 sora transformer, 还有 A G I。
Hello, 田 博士 你好你好。 我 大概 跟 可能 还 不太 了解 田园 栋 的 听众 简单 介绍 一下 他 过去 的 经历。 田园 洞 是 2018年 围棋 开源项目 E L F open go 研究 及 工程 负责人 和 第一 作者。 当时 我记得 这个 项目 其实 在 开源社区 里面 名气 还 蛮 大 的。 然后 也是 曾经 获得 了 2021年 国际 机器学习 大会 icml 杰出 论文 奖提名, 以及 2013年 国际 计算机视觉 I C C V 马尔 奖提名。 他的 研究 方向 是 深度 强化 学习, 表示 学习 和 优化。
历任 机器学习 国际会议 icml europe A A A I A I status 领域 的 主席。 而且 我记得你 是 2013年到14年 左右, 是在 谷歌 的 无人驾驶 担任 软件工程师。 是的, 那个 时候 应该 是 无人驾驶 非常 早期 的 时候, 整个 业界 还没有 注意到 无人驾驶 的 时候。
对, 大概是 这 样子, 或者 确切 说是 国内 还没有 注意到, 在 硅谷 这边 其实 已经 有人 注意 到了, 就是 有 挺 多 的 机会, 大概 在 2015年 16年 开始 就 起飞 了。 对我 当时 有 很多人 来 找我, 非常 多 的 人 找我, 我说 我 不清楚。
还是 呆 在 原地。 今天我 特别 想 跟你聊 一个 话题, 我们 何时能 实现 A G I? 非常 巧 的 是我 之前 在 知乎 上 看见你 写 过 一个 关于 自动驾驶 的 帖子。 我 觉得 你 那个 判断 跟 之后 我们 讨论 的 A G I 某种程度 上 会有 一些 相似之处。 我 觉得 待会儿 我们 可以 详细 的 聊 一下, 就 你为什么 放弃 了 自动驾驶 行业。 但 之后 我记得 其实 在 2017年 的 时候, 你 刚刚 就 我们 提到 的 这个 维持 开源项目 E L F open go 也是 基本上 当时 人工智能 界 最 火 的 事情。 因为 当时 谷歌 的 阿尔法 狗 alpha zero 其实 是 大家 看到 了 人工智能 的 一个 大 的 突破 的。 当时 你 也是 在 研究 人工智能 怎么 下棋 的 这样的 一个 问题。
对, 1718年 的 时候 我们 也 在 做 A I for games, 就是 A I for 游戏 这样的 一个 方向。 其实 这个 方向 很 早就 做了, 大概 2015年 的 时候 我们 就 开始 做。 我 刚刚 进 fair 的 时候, 这个 项目 就是我 的 第一个 主要 的 项目。
对, 做 围棋。 当时 我们 做了 一个 boss 叫 dark forest 黑暗森林 name。 这是 刘慈欣 的 三体 的 第二部。 当时 我是 三体 的 粉丝, 当时 是在 阿法 狗 出来 之前, 我们的 boss 还是 比较 强 的, 能够 跟 当时 最强 的 软件 打 个 差不多 平手。 当然 没 到 职业 水平, 但是 还是 很强 不错。 但是 我们 也是 用 神经网络 做 策略, 做 policy network, 来做 那个 策略 网络, 得到 一些 比较 好的 结果, 就是 他们 能够 跟 当时 的 最强 的 那个 软件, 他们 花了 十年 打磨 的 水平 差不多, 让 我 觉得 非常 惊讶。
其实 你 提到 了 你 做 dark forest 的 经历, 我 想到 你 还有一个 身份, 就 斜杠 青年。 你 其实 也是 一个 科幻 作家。
对我 从 0607年 的 时候, 应该说 更 早, 05年 时候 开始 写 的, 当时 写 的 非常 烂, 对 吧? 你 看到 网上 的 小说, 那些 都 不是 一开始 写 的, 后面 有空 会 写 一点 小说吧, 我 觉得 还 挺 有意思。 因为 对我来说 就是 不 靠谱 的 想法 就 扔进 小说 里面 写, 靠谱 的 想法 就 来做 科研。 我 觉得 这样 其实 是一个 比较 有趣 的 一个 组合。 因为 我也想 过 很多很多 想法, 但是 不可能 每个 想法 都 最终 能 达到 一个 能 发 文章 或者说 能够 产生 影响力 的 这样 一个 一个 一 一个 结果, 所以 有 一些 非常 crazy 的, 非常 天马行空 的 想法 就可以 把 它 放在 一起。 也许 就有 一天 就 也会 有 一本 小说 出来。
对, 其实我 挺 好奇 的, 研究 过 自动驾驶, 研究 过 下围棋, 包括 当时 你 也 做了 dark forest 的 策略 的 研究。 我 挺 好奇 现在 你是 怎么 转过 来 研究 大 模型 的, 而且 最近 你们 团队 很 高产。
对, 这个 中间 也 经历 了 很多 的 过程。 大概 18年 我们的 open go 出来 之后, 19年 发 了 文章 之后, 其实 再往下 这个 方向 就 没有 再做 下去。 一个 是因为 团队 里面 不同 的 人 有 不同 的 想法。 Open go 的 最后 一组 Larry 他 现在 做 A F science, 他 有 一些 关于 那个 A F size 的 一些 方向, 比如说 chemistry, 像 他们的 catalyst 这个 project, 每个人 想法 不一样, 有些人 已经 走了, 所以 后来 也就 没有 再 继续下去。
这 对我来说, 我 当时 其实 有 很大 的 一个 初心, 想要 去 理解 神经网络 到底为什么 工作, 他 为什么 能 工作 那么好。 就是 关于 神经网络 的 理解, 当时 我 就在 想, 其实我 应该做 这个。 所以 我在 18年 19年 之后, 就 没有 再做 围棋, 而是 去做 这方面 的 工作。 所以 如果你 看我的 这边 的 publication list, 大概 从 19年 开始, 20年 有 很多 的 唯一 做 的 文章 是 关于 如何 对 神经网络 的 理解, 就 为什么 他 能够 搞得 比较 好, 这个 话 其实 我们 做了 很长 一段时间。 其实 当时 19年 的 时候, OpenAI 的 伊利, 他 其实 跑过来 找 过 我的他 跟 我说 有没有 兴趣。 当时 我说 我 加入 OpenAI.
他 当时 对向 你 发出 OpenAI 的 邀请。 对。
其实我 以前 背 过 一个包, 就是 Y120 的 包。 那个 包 其实 是 当时 我 参加 他们的 活动, 他们 送给 我的。 他们 当时 有 那个 welcome manator 有 一些 活动, 当时 伊利亚 是 请 了 我去了 一次, 然后 问 了 我 到底 要 没有 兴趣。 当时 跟 我说 的 是 他们 想做 language model 大 语言 模型, 说 我 想做 的 是 如何 理解 神经网络 为什么 能够 work。 当然 你们 谈不拢 了, 所以 我 就 没有 去。 当时 是 有 这个 有趣 的 一个故事。 当然了, 最后 大约 模型 是 起飞 了, 都 是在 2022年 的 时候, 22年 的 时候 起飞, 那时候 就是 真正 的 我 就 感受 了, 确实 这个 方向 非常 的 有 希望。 同时 这个 方向 其实 也可以 跟 我 这边 的 一些 对 神经网络 的 理解, 其实 是 可以 结合起来 的。
去年 我们 发 两篇 关于 如何 理解 transformer 的 工作, 一篇 叫 scanner snap 有 一篇 叫 dma 两篇 都 是我 一 做, 其实 就是说 把 我 如何 理解 神经网络 和 大元 模型 结合起来 了。 因为 transworld 现在 就 成为 了 新一代 的 王者。 很多很多 网络, 很多很多 的 神经 架构 现在 都 开始 用 transformer 来 作为 这个 方向。 对 这个 东西 进行 理解, 其实 是一个 很 重要 的 一个 问题。 同时 也可以 通过 这个 可以 得到 更多 的 一些 对于 神经网络 的 改进 的 想法 和 建议。 像 这次 的 两篇 文章, 一篇 是 mobile I N 还有 一篇 是 glory。 这 两篇 其实 都 跟 我们 之前 的 一些 对 神经网络 的 理解 和 分析 是 有 很大 的 关系 的。
Glory 现在 还是 很 火, 前两天 我们 发 了 之后, 网上 有 很多很多 的 反馈, 包括 我的 微信 也有 很多人 找 我问 一下 接下来 我们 怎么做, 或者说 我们 对 这个 东西 的 看法 是什么 样子 的。 已经 有 开源 的 社区 重复 了 我们的 工作。 有意思。 对对对, 而且 确实 确认 了 我们的 一些 发现, 比如说 怎么 省 内存, 确实 可以 跑, 而且 速度 还 可以, 效果 也 不错, 所以 这个 让 我 非常 开心。
这 篇文章 其实 有 很大 的 一个 motivation 是 源于 比如说 2020年 我们的 一篇 做 网络分析 的 一些 文章。 这 篇文章 当时 被 拒绝 了, 被 哪 拒绝 了? 当时 被 艾 克利亚 拒 了, 同时 也 被 I C M 拒 了。 连续 两次 之后 就是 没有 再 投, 因为 已经 灰心丧气 了, 就 一直 放在 archive 上。 但 这 篇文章 的 两 部分 后来 起了 很大 的 作用, 有 一部分 变成 了 去年 我们 这 篇 drama 的 一个 文章 的 分析 的 基础。 另外 一部分 它的 分析 的 能力 和 它的 一个 思维方式, 就 变成 了 gera 这 篇文章 的 一个 主要 的 foundation。 所以 我 觉得 这个 很 重要, 就是 基础研究 对于 整个 领域 的 一个 促进作用, 还是 要 很 后面 才能 看出来 的。 要 过 个 43到4年 的 时间。
对你 刚刚 的这 一段话 里面, 我 有 太多 好奇 的 问题 了, 我 觉得 一个 一个 来。 首先 是你 提到 了 你的 盖 肉 的这 篇文章, 我知道 这 篇文章 确实 在 行业 里面 引起 了 非常 大 的 反响。 可不可以 这样 简单 通俗 的 跟 听众 解释 这 篇文章 其实 你 主要 讲 的 是 怎么样 在 一个 24GB 的 消费 级 的 G P U 上去 运行 一个 7B模型 的 可行性。
可以 这样 理解 吗? 对, 这个 是一个。 但是 该 有 主要 的 focus, 还是 能不能 在 4090 的卡 上去 训练。
训练 对。
推理 其实 很多 已经 做到 了。 如果 有一个 模型, 大公司 或者说 大 团队 帮你 训练 完了, 你可以 把 它 弄 下来。 然后 可以在 手机 上, 可以在 你的 个人电脑 上 进行 推理。 这个 不是 新鲜事, 大家 都在 做, 而且 已经 做得 很 不错。 但是 如何 能 在 比较 小的 消费 级 卡 上 能够 做 训练, 甚至 是 预 训练, 就是 从头开始 训练。 那个 其实 是 之前 一直 可以 说是 大 团队 或者说 大算 力 的 团队 的 一个 独有 的 一个 能力。 对于 消费 级 显卡 来说, 或者说 对于 你 G P U 破 这 一族 来说 就是 比较 难。 但是 这 篇文章 可以 让 大家 看到 了 一个 希望, 如果 有 很多 的 这样 的卡 连在一起 的话, 也许 也能 做到 大 模型 预 训练 的 一个 效果。
当时 我们 现在 预测 算下来 就是 单卡 4090 训练 一个 7B的 模型 可能 要 110天, 非常 长 对 吧? 但是 也许 如果你 有 很多 卡 的话, 那 也许 会有 并行。 因为 我们 现在 能够 把 整个 7B模型 放进 24GB里面 的话, 那就 意味着 模型 之间 的 不同 层 的 一些 交互, 其实 在 单卡 里面 可以 进行, 就 不用 出现 跨 卡 交互, 高带宽 交互 的 这样 一个 情况。 这个 其实 会 大量 的 省 带宽。 如果你 有 很多 4090 的卡 的话, 也许 他们 可以 通过 P C I E 或者说 通过 A N net 就 能够 连 起来, 然后 才能够 训练 完。 这样的话 就有 可能 会 发生 这样的 事情。
我 跟 大家 解释一下, 4090 是 英伟 达 给 大家 用来 玩游戏 的 显卡。 它 很难 跟 A100H100 的 算 力 相比, 但是 它 也是 一款 可以 说是 性价比 非常 高 的卡。 简单 来说 是 大家 在 训练 的 时候 可以 更 节省 显卡 了。
对, 他 就说 可以 绕过 以前 的 一些 限制。 比如说 为什么 现在 显卡 那么 贵, 主要 一个 是 n vida 现在 有 N V link, 那个 v link 是 有 很 高带宽, 就是 它 可以 提供 很高 的 带宽。 是因为 一个 模型 的 不同 的 部分 放在 不同 的卡 上, 所以 他们 每次 在 训练 的 时候, 他们 之间 是要 交互 的。 这个 交互 其实 是 有 很大 的 带宽 要求, 比如说 几百 G B 每秒 的 速度 跟 交互。 但是 如果 一个 模型 的 所有的 权重 都能 放在 一张 卡 上, 那么 也就 意味着 他们 在 进行 梯度 迭代 的 时候, 内部 的 计算 可以在 这 一张 卡 上 进行 卡 和 卡 之间 的 交互 就可以 大量 的 节省。 这样的话 也许 有 一些 现 当前 的 一些 范式 就会 发生 改变。
你 觉得 哪些 范式 会 发生 改变?
比如说 现在 有 很多 的 mode parallel 模型 并行 的 一些 方案, 像 F S D P 这种 方案, 你 要 保证 模型 的 一部分 放在 不同 的卡 上, 模型 太大 了。 比如说 需要 大量 内存, 比如 需要 100季内存, 但是 你 每张 卡 只有 40季或者 只有 24季。 你 怎么样 把 内存 分配 在 不同 的卡 上, 把 权重 分配 在 不同 的 内存 上, 然后 让 他们 充分 的 高速 的 交互, 让 这个 训练 变得 很 有效率。 但是 如果 有了 这个 方案 之后, 也许 一张 卡 上 可以 放 更多 的 权重。 这样的话 它的 训练 的 这个 过程 就会 加速。
你是 怎么 做到 的?
我们在 算法 上 做了 一些 改进。 关键 的 一个点 就是说 因为 大家 都 知道 lora 权重 太多 了。 那么 一个 自然 的 想法 是 我们 把 权重 经过 重 参 化、 reprimand、 sation, 然后 把 权重 变成 小的 矩阵 相乘, 这个 叫 低质 矩阵 分解。 分解 之后, 权重 的 里面 的 参数 的 数目 变少 了。 这样的话 我的 训练 就 能够 把 内存 的 要求 降下来, 这是 罗拉 的 一个 思想。
那 罗亚 是 有问题 的, 问题 在哪里 呢? 就是 他 一个 他 不能 用来 做 预 训练, 特别是在 一开始 的 时候, 用 柔软 直接去 训练, 会 导致 爆炸, 会 导致 有 各种 问题。 就是 训练 出来 效果 肯定 没有 全 参数 训练 要好。 这样 就 导致 一个 瓶颈, 就是说 你 要 省 内存, 你 就 不得不 牺牲 一些 性能。
我们 怎么 做到 呢? 就是说 我们的 观点 是 权重 本身 不应该 是 低质 的, 不应该 是 low rank 的。 但是 它的 梯度 的 迭代, 这个 梯度 是 可以 是 low rank 的, 这个 是 不一样的。 对, 因为 其实 大家 可能 都想 的 是 权重 本身 是 有 这个 性质, 其实 权重 一定 有 这个 性质。 但是 我们 可以 证明 甚至 可以 证明 出来 梯度 的 迭代, 梯度 本身 是 low rank。 因为 梯度 是 low rank 的话, 那 梯度 对应 的 一些 相应 的 内存 开销 都 可以 是 low rank 的。 包括 adam 的 一些 状态, 它的 momentum 有些 virus 这些 东西 都 可以 是 low rank 的。 这样的话 就 一下子 降 了 很多 的 内存。
这样的话 甚至 是你 比如说 你 要 训练 一个 7B的 模型, 如果你 用 一般 的 方式 训练 的话, 你 至少 要 40GB 以上 的 内存。 你 一个 7GB 的卡 永远 放不下。 但是 用 我们的 方式 的话, 我们 就可以 把 它 砍掉 一半。 比如说 18到20 G 就可以 放进去。 这样的话 就会 让 4090 比如说 重获新生。 比如说 通过 这个 方式 在 算法 上 可以 改变 计算 的 过程, 可以 让 这个 训练 变得 更 有效率, 更 省 内存。
非常 简单粗暴 的 理解, 它 其实 是一个 算法 的 改进, 而 不是说 你 加进去 的 预 训练 数据 质量 的 提高。
是的, 是 数据 另外 一回 事情。 因为 这个 改进 跟 数据 是 平行 的 关系, 或者说 是 solo onal 一个 关系。 那么 数据 还是 可以 再 往里面 加, 那么 效果 也可以 更好。 但 算法 本身 如果 效果 更好 的话, 其实 跟 这些 数据 的 改进 是 叠加 的 关系。
这 篇文章 的 目的 不是说 要 训练 出 一个 跟 现有 的 算法 相仿 的 7B的 model。 我们 这边 实验 就 跑 到了 这 20个BDM 的 token。 但是 算法 如果你 真的 要 训练 一个 比较 好的 7p model, 至少 要 一个 缺点, 或者说 是 反正 是 3到5个 吹 脸, 或者 2到3个 吹 脸 这个 数量级。 对, 所以 现在 还没有 到 这一点, 希望 以后 如果 有 机会 还 可以 再往下 做 下去。
你 还有 一篇 论文 是 mobile L M, 要不要 跟 大家 简单 解释一下 这 篇 论文 的 主要 思想?
这 篇 论文 就是说 是 我们 能不能 把 全球 网络 运行 链 的 财务 数量 压 得 更 低。 我们 这边 用 的 是 350 幂 恋 的 更 小的 神经网络。 在 这个 小 神经网络 下, 我们 是不是 能够 训练 出 更好 的 模型? 这个 模型 的 能力 肯定 没有 大 的 模型 效果 那么好。 但是 小 模型 到 什么 程度, 这个 本身 是一个 很 有意思 的 一个 问题。 这 篇 其实 主要 我 这边是 作为 一个 adviser 这样的 工作。 因为 这 篇 主要 不是 我们 菲亚 组 的 工作, 这边是 reality lab 他们 组 的 工作。 我 作为 一个 external adviser 给 他们 一些 建议, 包括 层 和 层 之间 自己 可以 共享 参数 这些 建议, 这个 都是 当时 我们 讨论 出来。
对我 稍微 穿插 一下 那个 问题 题, 因为我 一直 都很 好奇 我们 何时 会 达到 A G I。 其实 业界 有 两种 观点, 一个 是 仅仅 通过 增加 模型 的 规模, 通过 scaling law 的 形式 实现 ai 那 其实 还有 一种 观点, 仅靠 扩大 规模, 他 一定 会 遇到 瓶颈 的, 就是 他是 不够 的。 你 更 倾向 于 哪种 观点?
一般 很多人 这种 问题, 我 永远 会 倾向 于, 我 觉得 我们 现在 离 A G I 还差 几个 breakthrough。 我 觉得 现在 直接 scale 不一定 能有 效果。 而且 我会 觉得 可能 真的 过 一阵子 大家 会 发现 scale 慢慢 它 给你的 benefit 越来越 小。
因为 c in law 是什么? C N law 本来 它 其实 就是 一个 promise, 是什么? 就是说 如果 你的 算 力 乘以 2, 你 数据 乘以 2更容易 乘以 2, 那么 你的 部分 是 一定 会 上升 一个 固定 的 百分点。
但 这个 其实 不是 一个 好 事情。 New network 可以 有 这个 skin law, 但是 同样 的 news sneider bor 最近 一个 方法, 用 检索 方法 其实 也可以 有 这个 skin law 一样的。 就是说 数据量 越多 formers 越好, 所有 模型 都是 这 样子。 所以 其实 我们 并没有 完全 理解。 为什么 现在 的 transformer 或者说 拉 智能 model 这样的 一个 方案 有 那么 好的 效果, 其实 并不是 很 理解。 而且 这个 skin 的 走上 去 之后, 就 意味着 这 跟 自动驾驶 是 一样的, 他们 最终 会 达到 这样的 一个 curve。
这 客户 是什么 意思 呢? 我 当时 在 自动驾驶 2017年 的 那个 帖子 上 这么 画 过。 一开始 大家 都 非常 的 激动, 说, 我 加点 数据 效果 就 这么 好了。 人类 就 马上 就要 迎来 新的 春天 了。 但是 最后 你 会 发现 数据 加 的 越多, 它的 普通 分词 提升 就 越 难以 被 人 发现。 然后 最后 它 离 人类 最后 那根线 可能 还 差一点, 最后 可能 会有 这个 问题。
那么 对 宗 驾驶 来说, 它的 这个 问题是 数据 会越来越 难 获取。 主要问题 是在 这儿。 因为 如果你 开 一个 100外卖 都 没有 任何 交通事故 的话, 那就 意味着 你每 100万卖 才能 收到 一个 数据 点, 这个 效率 是 非常低 的。 这样的话 你的 收益 效率 越 低, 最后的 结果 就是你 永远 达不到 人类 的 水平。 对 大 语言 模型 来说, 这个 情况 会好 一点。 因为 数据 很多 时候 不需要 从 各种 事故 中 搜集, 还有 很多 的 数据 能 在 网上 能够 用到。
但是 也是 有 同样 的 问题。 也许 我们会 发现, 比如说 再 过 十年, 有 90% 或者 80% 的日常 的 一些 行为, 我们 都 可以 把 它们 建模 的 很 好的。 但 还有 20% 或者 10% 这些 行为, 因为 它是 可能 每个人 独有 的, 或者说 是 私有 的。 那么 这些 数据 哪些 是 拿 不到 的? 因为 拿 不到 的话, 那 也 意味着 就是 拿 不到, 我 就 没有 办法 用 它 来 训练 模型, 模型 就 不会 真正 的 去 理解 这些 情况。 这个 其实 是一个 很大 的 一个 问题, 这 当然 是一个 了。
然后 另外一个 就是说 大家 可能 会 意识到 数据 会 变得 越来越 重要, 大家 也 不太 愿意 真的 把 数据 分享 出来。 这个 两方面 的 因素 就会 导致 有问题。 最终 可能 会 发现 就是 数据 越来越 难 获取数据 难 获取 之后, 你的 模型 就会 变得 越来越 难, 变得 更强。 所以 这 两个 其实 是 有 一些 一致性 的。 所以 我 觉得 而且 你 就 回想 一下, 对人 来说, 比如 我 跟 你 对话, 我 能 很快 的 去 理解 你的 处境, 你的 状态, 也 不需要 你的 大量 数据 这种 理解。 但是 机器 就 不一样。 所以 这种 情况下, 其实 人 在 这方面 还 比 机器 要 更 多一层 的 理解能力 和 深度。 在 这方面 其实 我们 现在 还没有 看到。
其实 刚刚 你 分析 自动驾驶 的 这个 思路 特别 好, 这 应该 是我 看过 的 最好的 一个 对 自动驾驶 非常 独立思考, 又 用 数学 逻辑 讲 何时能 达到 完美的。 我说 的 是 完全 的 无人驾驶 的 种 状态 的 一个 分析 思路。 所以 你 觉得 这个 思路 在 A G I 领域 也是 存在 的对。
也是 存在。 当然 宗教 是 有 它的 特殊性, 因为 自动驾驶 一个 是 100% 不 可靠, 完全 不能 犯错。 那个 要求 其实 比 大元 模型 要强 多了。 大 语言 模型 没关系, 你 做 错了 大家 想想 就 好了。 他 还是 不能 帮你 改 稿子, 还能 帮你 总结 各种 文章, 还是 能 帮你 提供 各种 建议。 所以 他 这种 属于 更多 像是 创新型 的。 如果 没有 什么 好 建议 没问题, 没有 损失, 有了 好 建议 是 更好。 但是 对 增 驾驶 来说, 如果 没事儿 是你的 expectation, 有了 事儿 就 分 的 问题, 这个 是 不一样的。
对我 理解 你是 更 倾向 于 第二种 观点 的。 其实 A G I 不是 skin 零落, 它 可以 无限 的 增长 下去, 而是 它 一定 会 遇到 瓶颈。 在 这个 瓶颈 中 怎么样 依靠 其他 的 我们 跳出 现有 的 技术 范式 来去 实现 它, 反而 应该 是 值得 思考 的。
对我 觉得 是 这 第一个 依据。 就是说 人类 在 从小到大 的 过程中, 他 其实 没有 那么 多 数据 给他 喂 的, 但 他 还是 做 的 很好。 你看 我们 女儿 怎么样 学会 各种 技能, 你 会 发现 这些 对 她 学会 这个 过程, 一个 是 不需要 人工干预, 二是 他 学 的 速度 是 非常 快 的。 你 可能 昨天 他 还 不会 拍 这种 小 岩石, 今天 他 就会 喷 了。 他 大概 几个 月 的 时候 给他 放在 楼梯 上, 他 从来没 见过 楼梯, 但 他 十分钟 之内 就会 往上爬, 这个 其实 是 非常 impressive。
也许 有人 会说 很多 东西 是 刻 在 基因 里面 的这 是 有可能 的。 但是 他的 学习 能力 也是 非常 强大, 应该 是 存在 一个 新的 学习 算法, 而且 这个 学习 算法 应该 是 远远超过 现有 的 效率。 我们 现在 只是 摸 到了 一个 就是 scratching the surface, 就是 我们 现在 只 摸 到 一点点。 我们 通过 一些 奇奇怪怪 的 组合, 运气 很 好的 碰到 了 一点点 的 皮毛, 我们 就 已经 打出 那么 大 突破 了。 所以 可见 这个 东西 的 潜力 非常 大。
所以 你 在 做 glory 的 模型 的 时候, 其实 你 已经 是在 思考 这 一层 的 问题 了。 怎么样 在 算法 上 的 提高, 让 他的 预 训练 更好。
对, 这个 不仅仅是 改造 这 篇文章, 应该说 这个 是 go throughout the entire research career。 因为我 整个 research career 或者 一个 很大 的 核心 就是我 怎么样 去 理解 神经网络 是 如何 工作 的。 根据 这个 理解, 怎么样 找到 更好 的 算法, 提高 它的 工作效率, 这个 其实 是一个 最大 的 一个 方向。 这个 方向 上 我们 有 很多 的 一个 是 理解, 一个 是 分析。 然后 用 这个 理解 和 分析, 我们 运用 在 现有 的 算法 上, 然后 把 它 变成 更好。
比如说 围棋, 包括 之前 我们 其实 还有 一篇 文章 也是 挺 火 的, 叫 search former。 对我 知道 那个 对, 那 篇 其实 也是 花了 一些 时间 去做, 这 篇 其实 是 transformer。 现在 的 问题是 他 没办法 做大 长程 的 推理, 他的 推理 力 非常 差。 比如说 让 他 去 玩 井字棋, 你 发现 他 不行。 我也 试 过, 包括 最新 的 crowd 3玩1下 发现 也 不行。 他说 的 非常 好 对 吧? 但是 他 下 的 棋 是 错 的那 我 跟 他说, 我应该 下 这个, 下 这个 我们 就 赢 了。 他说 好像 你是 对的, 对他 他就是他 还是 没有 办法 做 这些 非常简单 的 一些 比较复杂 的 游戏 式 的 推理。 我们的 search form A A 这 篇文章, 通过 先 模仿 传统 的 推理 算法, 优化 算法、 planning 算法 的 过程, 我们 可以 达到 一些 水平。 所以 就说 我们 一个 很大 的 一个 关键 的 一个 思路, 就是 我们 能不能 找到 为什么 神经网络 能够 work 的 原因, 然后 能够 用 这个 去 理解 去 改进 现在 的 算法。
你 刚刚 提到 了, 其实 你 一直 在 研究 神经网络 到底 是 怎么 工作。 我自己 对 这个 问题 也 非常 的 好奇, 我 把 它 具象 成 一个 更加 具体 的 问题。 我知道你 研究 transformer 研究 的 非常 久, 而且 非常 深。 你 要不要 先 说 一下 为什么 在 这么 多条 路径 中, 包括 像 OpenAI 它的 训练, 它是 用 transformer 的 架构 来 训练 完成 的, 他的 优点 是什么? 他 为什么 走 出来 了? 他 现在 的 瓶颈 跟 缺点 在哪里?
首先 open I 用 transworld 不是 他们的 原创 了, 因为 传颂 的 一开始 是从 google 里面 出来 的。 我 觉得 他们 一开始 的 想法 应该 是 对于 G P U 的 计算 的 一些 深入 理解。 因为 transformer 的 一个 好处 是 它 可以 有 很大 的 并行 能力。 它 比如 很长 的 序列, 我可以 用 self attention 这个 机制 同时 计算 这 序列 里面 所有 两队 的 token 他们 之间 的 一个 similarity, 然后 用 它 来 算 attention。 我 觉得 这个 原因 可能 是因为 goole 内部 做 G P U 或者 做 G P U 可能 发现 算 力 的 价格 远远 比 通信 的 价格便宜。 既然 算 力 那么 多, 那 为什么 我不能 设计 一个 模型 让 这个 算 力 获得 更大 的 优势? 那 好, 我们 干脆 就 把 所有的 talk 放在 一起, 然后 我们 让 他们 做 powis 的 那个 inner product, 这个 应该 是 他们的 motivation。 他们 发现 效果 特别 好, 速度 没有 慢 太多, 所以 他 才有 transformer 这 样子 的。
但是 其实 后来 发现 transformer 的 skin 能力 非常 好, 往里面 喂 数据, 这 在 数据 多 的 情况下, 它的 效果 也 确实 比 以前 现有 的 一些 方法 要 好像 C N A 那些 方法。 它 确实 有 在 有些 方面 上 不一定 比得过 transformer。 因为 C N A 有 一些 预设 的 立场, 他 比如说 第一层 感受 也 非常 小, 这个 对 vision 是 对的, 我 先 把 最小 的 一些 特征 拼 起来, 然后 再 拼 起来。 但 对于 suma 来说, 它 没有 这个 预设立场。 那么 就 意味着 数据 多 的话, 它 这个 效果 就 会有 更好 的 提升。
它 相当于 是一个 典型 的 用 算 力 来 换 预设立场 的 例子。 因为你 要 看 人类 社会 的 发展 或者 研究 的 发展 的话, 一般 是 这样。 计算资源 比较 低 的 时候, 就 需要 人类 的 大脑 去 想到 一些 比较 好的 模型, 在 这 模型 上 找到 最好的 解。 但 算 的 越来越多 的 情况下, 人类 的 一些 条条框框 就要 被 打破 了。 慢慢的 人类 把 调整 框架 打破 之后, 把 这些 模型 的 建立 的 方式 让人 计算机 自动 去 发现。 这个 可能 就是 传送 一个 在 宏观 上 的 一个 很大 的 故事。
对 缺点 对 缺点 当然 是 它 需要 大量 算 力。 还有一个 就是 它的 速度 也没有 那么 快。 就 比如说 你 要 在车上, 你 用 transformer, 这个 其实 是 比较 难 的。 其实 如果你 要 做 无人 车, 或者说 做 那种 low latency y 的 延迟 太高了, 它 延迟 比较高。 这种 时候 很多人 就说 你 还 不如 就 用 C N N S net。 它的 效果 还是 不错 的, 也有 很 好的 低 延迟 的 一个 特性。 然后 它 算 的 也 不需要 太多, 这个 是一个 很大 的 一个 difference, 这个 都是 有 锤子 off 的。 但是 transformer 作为 头牌, 作为 A G I 的 希望? 肯定 大家 还会 继续 往 下 挖下去。
对我 为什么 刚刚 花 那么 多 时间 在 transformer 上? 是因为 我 其实 在 想, 我们 达到 B C I 的 方法 是不是 transformer 这 一条 路径。 因为我 知道 现在 有 很多 像 新的 路径 在 做, 比如说 像 raku, 但 我知道 他 可能 在 处理 图像 跟 视频 的 并行计算 上, 可能 没有 transformer 表现 的 那么好。 刚刚 其实 我们 也 提到 了, 仅仅 通过 增加 规模, 你 要 最终 实现 A G I 是 很难 的。 所以 我们 要 找到 新的 范式。 所以 我不知道 你 有没有 发现 一些 新的 范式。
整体 上 我是 在 想 这样 一个 问题, 就是 在 做 学术 跟 科研 的 时候, 什么时候 大家 应该 是在 一个 小 问题 上 不停 的 精进 优化, 就是 我们 把 各个 细节 做到 更好。 同时 另一个 方面, 就有 的 时候 我 觉得 大 的 突破, 它 并 不是说 在 改进 细节 上 做出来 的, 而是 说 thank you out of the box。 这是 我们 怎么 又 跳出来 从 本质 上 质疑 这件 事情 来。
达到 的这 是 很 好的 问题。 就是 exploration 和 exportations 的 问题。 强化 学习 里面 一个 根本性 问题, 一个 是 说 我 什么时候 应该做 探索, 我 什么时候 应该 利用 现有 的 优势 获得 更大 的 利益。 这个 永远 是一个 好的 problem。
我 觉得 对 研究员, 对 研究 来说, 很多 时候 是 多线 并行 的, 不是说 我 就 盯 着 一个 东西, 因为你 谁 也 不知道 将 会 发生什么事, 也许 陈思 莫 会 继续 霸 榜 十年, 或者说 明天 他 就 被 一片 新的 阿凯 干掉。 你 并不知道 我 将来 会 发生 什么样 的 事情。 对我来说, 我 觉得 大 的 逻辑 就是 我们 还是 要 从 第一性 原理 出发, 这 是我的 一个 风格。 我 永远 会 非常 喜欢 从 T 恤 人 说 就是 OK。 我 对 世界上 所有的 人 说 的话, 我 都 不一定 会 100% 相信。
我们 相信 的 是什么 呢? 是 如果我们 要 出 分析, 如果 像 那些 数学家 一样, 从 最简单 定理 出发, OK 这些 数据 之间 是 有 相关性 的。 什么样 的 模型 能够 很 高效 的 去 模拟 这个 相关性, 把 相关性 提取 出来, 用 这个 相关性 去 预测 将来 的 一些 事情。 有 这些 东西 之后, 你 就会 自然 然 会 构建 出 它 整个 框架 应该 是什么 样子 的。 根据 这个 你 再去 找 很多 文章 去 验证。 就 我每 看 一篇 文章, 我 不是说 是真的 去 100% 的 把 他们的 所有 细节 都 记住, 这个 没有 意义, 因为 那么 多 文章 根本 看不完。 我 觉得 我 做 的 很多 事情 是 这样, 去 看 这 篇文章, 然后 去 看 这 篇文章 里面 哪些 观点 或者 哪些 现象 和 我心 里面 想 的对 神经网络, 对 传送 的 理解 是不是 契合, 或者 什么 地方 是 让 我 觉得 我的 理解 是 错的。 我应该 改变 我的 想法, 通过 这个 方式 来看 文章。
最近 有 看到 什么 好的 观点 吗?
没有 特别 surprising 的。 现在 对, 现在 还是 说 在 这个 方向 上, 我们 继续 往 下去。 你 像 sora 是一个 很 surprising 的 direction, 这个 是一个 很 有意思 的 一个 就是 这个 效果 确实 比 我 能 想象 的 要 好好 不少。 但是 也有 很多 的 文章, 比如说 有些 文章 跟 我们的 研究 方向 是 很 契合 的那 我们 就要 去 看一下 这些 文章 在 做些什么 事情。 比如说 能够 加速 推理 的 那些 文章 我们 去 看。 因为 我们 去年 有 一些 文章 是 加速 推理 的 神 内存 的 文章, 或者说 一些 对 神经网络 的 分析 的 文章, 我 都会 去 看一下。 这 篇文章 其实 跟 我 研究 方向 是 有关系 的。 他们 号称 比如 能 证 这个 东西 能 证出来, 或者说 有 一些 新的 现象 和 观点, 我 也会 去 看一下。
刚刚 你 正好 提到 了 sora, 我们 也 还 蛮 关注 sora 的。 你 觉得 他 让 你 最 惊艳 的 点 是什么?
首先 第一个 就是我 这边 不是 做 扩大 模型 的。 我 很早以前 做 计算机视觉, 但是 现在 也 不做 很多年 了, 可以 这么说。 我 已经 不是 一个 一线 的, 在 所有 方面 是 一线 的, 我 肯定 不是我 当然 可以 给 一些 建议 或者 给 一些 想法。 我 觉得 最 爆 的 点 就是 它 确实 效果 非常 好, 最 让 我 觉得 surprise 就是 它 一致性 非常 好。
你说的 是 所有的 生成, 现在 市面上 放 出来 的 那些, 还是 说 它的 某 几个 demo.
应该说 所有 他 生产 出来 的 东西 实际性 都 非常 好。 这个 不是说 是一个 两个 比较 好, 但是 我 觉得 基本上 所有的 拿出来 都是 非常 好的, 都 是一个 完整 的 场景。 然后 场景 的 前后 人物 的 表现 和 他的 穿着, 还有 各种 行为 都 还是 比较 相似, 非常 的 consistent, 这个 是 非常 强 的, 这个 是 为什么 让 我 觉得 非常 surprise 的 原因。
然后 你 去 看 它的 技术 报告, 你 可能 会 发现 它 并不是 预测 下 一帧, 通过 这个 方式 预测 出来。 它是 相当于 把 整个 视频 看成 一个 大 的 image, 然后 它 有 镶嵌 了 一个 3D的音。 这 3d image 我们 通过 diffusion mode 一点 defuse 出来。 这样的话 确实 可以 保证 一个 consistency。 因为 整个 图 东西 是 一起 出来 的, 它 不是 像 predict next token 一样, 就是我 predict 一个、 两个、 三个、 四个, 然后 我 predict 不是 60帧, 然后 慢慢 pret 100帧, 慢慢 把 这个 视频 生成, 这个 会有 问题。 因为你 预测 到 最后, 你们 慢慢 你 会 发现 有些人 就 走形 了, 或者说 有些 一致 的 概念 不一致 了, 然后 他 会 去 别的 地方。 但是 sora 在 那个 latest space 上 做 这个 diffusion, 他 对 整个 image C D 的 special temporal volume 做 diffusion。 把 这个 问题 提到 了 新的 高度。
保持 一致性 有 多难? 或者说 它 跟 时间 是 有关系 的。 因为 比如说 我们 看 像 runway, 像 皮卡, 他们是 3至4秒, 最多 extend 到 10秒的 视频。 我看 了 所有的 demo, 它 只有 在 东京 街头 那一个 视频 是 60秒, 其他 的 视频 可能 也是 20秒左右, 还是 10到20 秒 之间, 还有 8秒的对 吧? 它 并不是 所有的 视频 生成 出来 都是 60秒的, 但是 我 想知道 保持 一致性, 你看 的 是 一个多 大 的 时长, 然后 保持 这个 时长 的 一致性 有 多难?
我 觉得 20秒内 它的 各种 变化 是 非常 大 的。 比如 伊朗 有一个 还是 让 我 非常 impressive 的, 就是 那个 反光。 就 一个人 在 车 里面, 就像 东京 的 新干线 的 街头, 他 站 在那边 看 外面 的 场景, 不定期 的 会 看到 外面, 但 不定期 看到 他 自己的 反光。 它 自己的 反光 在 不同 的 时间段 都是 一致 的, 这个 是一个 非常 让 我 非常 surprise 的 情况。
因为 如果你 只 预测 下 一帧 的话, 你 很有可能 会 发生 这 一帧。 你 测 出来 反光, 下面 的 反光 就是 不一样的。 但是 它 能 做到 两次 的 反光 是 一样。 尽管 这 两个 chunk 比如 隔 十秒钟, 他们 还是 能 保证 这个 反光 是 一样的。 所以 这个 其实 是 让 我 非常 surprise 的 一个点。
20秒或 十几秒 其实 倒 不是 问题, 问题 还是 在于 这 里面 的 视频 里面 有 多少 内容。 这个 内容 是不是 在 经过 很大 的 变化 之下, 它 还是 能够 一致。 因为 它 会 看到 很多 这种 镜头 翻 得 非常 大, 整个 人 在 很多 的 之前 有一个 视频, 就是 一个 猫 在 一个 废弃 的 垃圾箱 走来走去, 整个 走路 的 过程 是 变动 是 非常 大 的, 视角 变化 也 非常 大, 它 整个 猫 的 形态 还是 没有 发生 改变, 所以 这个 是 非常 impressive 的。
所以 sora 是 世界 模型 吗?
这个 是一个 很 好的 问题, 因为 世界 模型 这 句 话 是 非常 广泛 的对 我们 先 定义 世界 模型, 什么 叫 世界 模型? 就是你 只要 预测 下 一帧, 或者说 你 对 将来 有 一些 看法, 也都 是 世界 模型。 三岁 小孩 说 今天晚上 我要 去 外面 吃饭, 这个世界 模型 一样的。 所以 我不 觉得 这个 词 这么 高大 上, 其实 你可以 用来 做 世界 模型 对 吧?
你可以 说 我 把 前面 几 帧 定下来, 给定 前面 几 帧 之后, 把 后面 的 东西 拿 过来 做 的 fusion, 然后 得到 一个 consistent video, 这个 就是 一个 世界 模型, 这个 都 可以。 而且 索拉 可以 做 反过来 的 世界 模型。 我记得 他 有一个 视频 是 给定 后 3分之1 的真 生成 三个 不同 的 视频, 他们 最终 都会 收敛 到 最后 后 3分之1。 真 最后 3分之1 真是 说 一个 电 车开进 了 三藩 的 闹市区, 但是 开 的 过程 可以 是 不一样的。 他 可以 说 这个 电池 先 从 空中 降下来 进入 闹市区, 或者说 从 另外 一个地方 开 不 进来。 然后 最后 它 都会 无缝 衔接 到 最后的 开进 闹市区 这个 动作。
所以 去 说 索拉 可以 做 任何 的 补全 了。 你 去掉 一些 针, 然后 把 其他 针 补全, 它 都 可以 做对。 所以 这种 人 来说, 它 确实 是个 世界 模型。 但是 另外一个 问题 就是说 这点 上 我 同意 一样的 观点, 就是 它 在 物理 上 是 有问题 的, 很大 的 问题。 一个 玻璃杯 掉下来 之后 摔碎 了, 但是 没有 摔碎 的 过程, 它 直接 会 变成 碎 掉 的 状态。
是因为 数据 的 问题。 就 比如说 玻璃杯 掉下来, 大家 能 看到 碎成 一个 渣滓, 这个 是 经常 我们在 图片 或者 视频 中能 看到 的。 但是 它 掉下来 摔碎 的 这个 过程, 其实 是我 觉得 在 人类 的 生活 中, 它 也是 很快 发生 的, 我们 不太 容易 去 捕捉到 它的。
是的, 对我 觉得 其实 就是 这个 原因 就是说 一个 数据 不够。 然后 另外 就是说 这个 物理 过程 非常 难 模拟, 在 机器人 那边 其实 有 同样 的 问题。 机器人 那边 其实 也要 做 世界 模型, 对 吧? 你 要 预测 下 一帧 这个 物体 会 在哪儿, 它 跟 其他 物体 有 什么样 的 交互, 就 预测 的 物体 在哪 非常简单, 因为 人家 你 只要 套 你的 物理 模型 就行了, 你 把 牛顿 的 定律 拿 进去 套 一下 就 好了。
但是 他 一旦 跟 别人 物体 交互 的 时候 就 会有 问题。 因为 交互 的 动作 它的 变化 是 非常 快 的, 交互 的 数据 也 不是 特别 多。 最后 他 学 出来 的 模型 就 质量 就 不好。 但 质量 不好 的 问题 就是 而且 模型 变动 一点点, 它 最后的 输出 也是 完全 不一样的。 这些 因素 综合 在一起, 最后 导致 世界 模型 或者说 特别是 交互。
比如说 一个 手 砸 在 这个 桌上, 这个 交互 对 吧? 这个 交互 其实 是 很难 的, 因为 在 砸 下去 的 一瞬间, 你 受到 的 力 从 零 突然 变得 很大, 这是 非常 小的, 在 很小 时间 内 发生 很大 的 变化, 这 是一个 两个 物体 之间 相互 交互。 比如说 你 要 看 两个人 打斗, 我 觉得 这个 对 苏老师 的 兴趣 其实 会 比较 难。
我看见 索尔 它 有一个 是 两个 船 在 一个 咖啡杯 里面 运转, 那个 也是 很 惊艳 的。
真的 是 很 惊艳 的。 就是说 船 和 船 之间 是 没有关系, 船 和 里面 的 水 是 有关系 的对。
所以 它 也是 会 涉及到 力学 的。
它 会 涉及到 一些 这个 我相信 是因为 网上 有 很多 这样的 视频, 就是 有 很多 水 跟 物体 的 模拟 有 视频, 那么 就会 学到 这个 能力。 但是 如果 数据 不够 的话, 可能 就 比较 难。
我 把 我的 问题 稍微 再 拆解 一下, 就 我 把 世界 模型 这个 词儿 拆解 一下, 你 觉得 索尔 现在 是不是 能够 理解 世界 运转 的 规律, 把握 物理 法则, 记忆 检索 信息, 还有 逻辑推理 或者 行动 规划 的 能力。
我 总 感觉 像 把 sora 当成 一个 全能 的 模型, 我 觉得 他 也要 分 不同 的。
你说 你 觉得 他 这。
方向 其实 挺 难 的, 因为 生成 视频 和 预测 物理 世界 是 两回事。 因为 生成 视频 完全 生成 一个 是 而 非 的, 看起来 很 有 道理, 但 其实 是 不对 的, 是 非常 正常。 因为 物理 世界 对于 视频 来说 最 重要 是 好看, 最 重要 不是说 是 它 真实。 对, 有可能 会 这样, 就是 物理 世界上 有 一点点 发生 小小的 变化, 这些 小小的 变化 真的 模型 没有 预测 到 你的 planning 计划, 统筹 能力 就会 变得 非常 差。 因为 我 觉得 他 planning 跟 这个 能力 应该 不会 特别 擅长。 因为 有 很多 的 小的 物理 误差, 它 累积 起来 之后 就会 变得 非常 糟糕。 我 觉得 这个 是一个 问题。
但是 逻辑 其实 很难说。 就 逻辑 的 模型 你 说话 更 像 一个 创作 模型。 不是, 他 可以 创造出 一个 视频, 对他 来说 是 最熟悉 的。 但是 如果你 要 考 他 一道 题, 这道题 他 没有 见过, 或者说 他 不太 有把握, 他 不一定 能 回答 的 特别 好。 所以 我 觉得 这个 其实 很难, 不要 把 它 当成 一个 万能 的 一个 东西。 我 觉得 他 可能 确实 是 往前走 了 一步。 但是 真的 你 要有 万能 的 模型 的话, 你 可能 还需要 很多很多 的 工作。
其实 我们 过去 提到 大 模型, 大多数 时候 说 的 都是 大 语言 模型。 但 我知道 闫 罗坤 他 有一套 理论, 他的 理论 是 全脑 模型。 人体 他 觉得 不仅仅是 语言, 他 觉得 可能 也要 用 感官 去 认知 世界。 你怎么看 这 两个? 其实我 觉得 这个 也可以 算是 我们 刚刚 讨论 的 到底 是 thinking in the box earth, thinking out of the box.
我 觉得 对 央 来说, 他 当然 是 希望 起 一个 很大 的 大 框架, 包括 里面 所有 东西 都有。 能 用 感官 就是 bring your perception, 或者说 employed 的 A I 用 感官 去 跟 这个世界 做 交互, 然后 得到 一些 信息, 这也是 很 重要 的。 因为 对人 来说, 如果 就 给他 看 幻灯片, 看看 电影 的话, 他 其实 对 他的 学习 或者 对 他的 工作, 他的 进步 不会 有 太大 的 反响。 那么 对人 来说 最 重要 还是 能够 对 跟 物体 进行 交互。 这个 就 强化 学习 这部分 内容, 就是我 看到 一张纸, 我 可能 要 相互 翻 来 翻译, 未来 会 翻。 我可以 想知道 就是 有 一些 新的 假设, 你 从 你 脑子里 冒出来, 你 要 从 探索 中 把 这些 假设 解决 掉。 我 觉得 这也是 很 重要 的这 也是 exploration expectation 这样的 一个 很 重要 的 一个点。
世界 模型 其实 是 其中 的 一个 很 重要 的 一个 组成部分。 因为你 对 这世界 没有 预测 的话, 你是 没有 办法 得到 你 想要 做什么 事情 的 一个 决策 的。 就 比如说 你 看到 一只 老虎, 你 第一 反应 是 老虎 要把 我 吃 了, 那 我 就得 跑。 世界 模型 这边 的 决策 是 预测 老虎 会 把 我 吃 了。 如果 不动 的话, 决策 模型 会 根据 这个 预测 会 决定 我们 要 跑路, 这 都是 相辅相成。
的对 所以 整体 来说 它 其实 还是 一个 非常复杂 的 工作 机制。 是的。 然后 另外 大家 关于 sora 讨论 的 比较 多 的 一点, 他在 做 着 sora 的 生成 的 过程 中用 了 很多 的 合成 数据, 包括 用到 了 虚幻引擎 5。 这个 他 没 写 他 没 写 吗? 他 没 写。
OK 这个 我 觉得 有可能 是因为 误传。 因为 塑料 刚 出来 的 时候, 有 几个人 在 推特 上 写 了 一些 猜测, 包括 我自己 在上 写 个 猜测。 我说 他 一定 是 他 是不是 一定 有 引擎, 他 好像 很多 照片 是用 引擎 生成 的。 当时 我记得 松 妹 四 好像 也有 一些 想法, 就是 开 toch 的 一个 可 方 的 对还 包括 这个 饭 还有 一些 脑 洞。 但是 这个 没有 任何 证实。
没有 证实 他是 一个 分成 数据 的。
我 觉得 他 肯定 很 可能 是用 了 很多 网上 视频, 这 视频 是 包括 了 合成 数据。 比如说 我 有些人 网上 放 一些 游戏视频 放在 youtube 上。
我 理解 就是说 他 如果 用了 比如说 游戏视频 生成 的那 那些 游戏视频 可能 是 虚幻引擎 5做的。
对, 但 他他 自己 不一定 说 用 虚幻。
但 他 没 披露 他的 数据源。
对他 没有 披露 过 他 出去。 所以 这个 其实 是一个 以讹传讹 的 一个 典型 例子。 我 觉得 还是 充分证明。
了 看 第一手 资料 的 重要性。
对我 觉得 就是我 当时 第一个 跳出 来说, 我 感觉 上 这个 是不是 用 sync data, 然后 你可以 去 看 twitter red。 当时 资料 出来 之后, 大概 一两个 小时 之内 就 开始 有用 评论。 所以 我 觉得 这个 不是 confirm 的的, 是 OK。
这个 纠正 非常 好。
对我 觉得 你 去看看 youtube video, youtube v 6很多 也是 合成 数据 对 吧? 游戏 数据 是 当然 恒 数据 了。 对, 他们 用了 一下 之后, 他们 也可以 说 用 恒数 数据, 但 并不 代表 他们 内部 会 用 虚幻引擎 生成。 恒生 数据 不一定 是 他们 做 的, 但是 他们 可以 拿 数据 过来。
那你 觉得 合成 数据 的 方式 去 训练 大 模型, 你怎么看 这种 方式 呢?
我 觉得 这个 可能 是 以后 的 一个 很大 的 一个 趋势。 我 觉得 像 我们的 three former 其实 用 的 是用 合成 数据。 比如说 我们 先 用 传统 的 方法 生成 大量 的 推理 步骤? 然后 把 这 步骤 放进 transform 里面 去 训练? 那么 这 所有 数据 都是 合成 的, 就是 通过 已有 的 引擎 去 生成 一堆 数据, 然后 去 训练。 这种 方式 其实 可以 一个 是 比较 有效 的, 能够 避开 现在 是 越来越多, 越来越 难找 的 一个 窘境, 我想 以后 应该 会有 很大 的 发展。 另外 一方面, 可能 数据 有 自己的 一些 局限性。 你 想 之前 围棋 这个 方向 其实 都 是用 的 核 数据, 让 围棋 软件 或者 让 A I 自己 跟 自己 下 to play, 那 都是 核心 数据。
你 这个 观点 太 有意思 了, 你 突然 提醒 了 我, 包括 网上 我们 用 的 一些 训练 视频, 大家 觉得 是 原始数据。 其实 它 有可能 它 就是现在 创作者 的 大量 的 视频, 可能 也是 用 合成 数据 来 算 的。 所以 我 觉得 是不是 说 合成 数据 跟 真实 数据, 它的 边界 本身 也 在 变得 越来越 模糊。
我 觉得 以后 边界 一定 会 变得 越来越 模糊, 就 比如说 一个 抖 音 创作者, 他 可能 用了 虚幻引擎, 再加上 自己, 最后 搞 出 一个 视频 来, 这个 视频 算不算 个人 数据, 其实 也 算, 但 其实 也是 真实 数据。 因为 是人 加工 的, 所以 我 觉得 其实 没有 特别 必要 区分 这 两者, 因为 最后 可能 会越来越 模糊。
所以 其实 在 科研 上 大家 都会 用到, 只要 这个 东西 有 帮助 我们 就 都 用。
对它 不是 一个 让 大家 觉得 非常 吃惊 的 一个 操作。
但 为什么 会 问 这个 问题? 我们 觉得 人类 的 数据 是 有限 的, 现在 很多 的 数据 已经 被 用来 去 训练 OpenAI 的 大 模型, 包括 各个 机构 的 大 模型 了。 接下来 我们 如果 还要 沿着 大力出奇迹 的 方式, 探索 向 A G I 的 路。 数据 从 哪里 来?
对, 一个 方法 就是 合成 数据 了。 因为 合成 数据 就 相当于 用 算 力 来 换 数据, 你 只要 有 无穷的 算 力, 你 就有 很多很多 数据, 数据 会越来越 多, 这 是一个 办法。 当然了 这个 也有 问题。 因为 合成 出来 的 数据 如果 没有 human intervention 的话, 它 somehow 应该 还有 一些 比较 重要 的 一些 信息, 它 其实 也 不一定 能 抓住。
就像 OpenAI 之前 有 一篇 文章 叫 let's verify step by step, 这 篇 是 做 数学 推理 的。 他们 先生 成了 大量 的 一个 推理 步骤, 挑战 数据, 先 让 AI 来决定 哪 数据 好吧, 哪个 数据 不好。 但 A I 发现 你可以 做 这些 事情, 但是 做 完 之后, 剩下 数据 还是 要人 去过 一遍。 因为 剩下 数据 都是 A I 觉得 很好, 但 其实 是 错 的对, 就 相当于 如果 没有 人类 的 参与 的话, 那 A I 就会 在 原地 转 圈子, 他 永远 会 觉得 这个 是 好的, 然后 去 推上, 但 其实 这 东西 是 不对 的那 它 就 没办法 达到 更高 的 那个 level。 所以 核心 数据 有 这个 问题, 像 围棋 的 浑身 数据, 它的 问题 就在于 它 在 围棋 世界 里面 可以 做到 非常 厉害, 但 出了 世界 之后 就 很难 做到 这一点。 最终 就是说 你可以 用 个人 数据 把 自己的 这个 能力 提上去, 但 最终 他 会 遇到 个 瓶颈。 那么 这个 瓶颈 人类 能不能 帮忙 通过 某种 方式 超过 这个 瓶颈 到 下 个 来, 我 这 是一个 问题。
然后 还有一个 也是 最近 的 一个 新的 消息, anthropic 发 了 一个 新的 大 模型。 我看 新闻稿 里 是 说 他在 推理 数学 编码, 还有 多 语言 理解 跟 视觉 等 二十多个 测试 中, 性能 超过 了 OpenAI 的 GPT4。 我不知道 你 有没有 用过 那个 模型, 自己的 感 你 感受 怎么样?
他 还是 挺 厉害 的。 但 我 感觉 上 因为我 是个 小说 创作者, 所以 我会 拿 很多 段落 去 测 它它 其实 应该说 是 感性 多于 理性, 就是 写文章 或者说 写 小说, 或者说 给 小说 续 一下, 它的 细节 丰富 度 还是 挺好的。
你 觉得 他 跟 GPT four 哪个 在写 小说 上 表现 更好?
我 觉得 其实 是 traffic 好 一点, 我 觉得 但是 推理 上 来说 我不知道, 就是我 觉得。
不一定 就 你 没试过 推理。
推理 其实 试 过 一些, 但是 它 有 两方面 它 特别 强。 一个 是 长文 的 理解 和 分析, 这个 非常 强我 可以 把 我的 球 扔 进去, 然后 他 会给 你 一个 章节 一个 章节 做 一些 总结, 总结 的 非常 好。 我 觉得 这个 总结 能力 其实 远远 强 过 GPT four。
你的 G P four 有些 问题, 一个 是 说 湖北 给他 送 小说 稿 的话, 他 会 调 code interpreter, 他 会 用 I E G 加上 它的 搜索引擎。 但 这个 I A G 的 效果 就 不好 了。 你 像 A G 就 相当于 我 就 抽 一段 进来, 然后 用 代码 的 方式 生成 一个 代 一个 程序 去 抓 里面 的 数据。 这个 肯定 没有 原生 的 用 大约 模型 来做 summarizing 要好。
但是 atrophic 给 我的 感觉 是 给他 很大 一段 很长 一段话。 那么 这 段 很长 的 一段 故事, 这 故事 可能 他 也 没 见过, 但 她 能够 总结 的 非常 好, 她的 一些 细腻 程度 也 超过 了 现在 的 一些 水平, 这个 是 让 我 觉得 非常 好的。 然后 另外 就是说 续写 什么的 也 不错, 补全 什么的 都 挺好的。 但是 在 推理 上 来说, 给他 一些 问题, 他 确实 也 做 的 挺好。 但是 你 要说 比 G B T four 强, 我不知道, 很难说 清楚, 就是我 觉得 没有 非常 清楚 的 界限。
它 不是 一个 非常 清晰 的 目标, 它是 一种 人的 主观 感受。
对对对, 所以 其实我 觉得 这个 很难 讲。 因为 现在 网上 也 看到 有 很多 评价 说 GPT four 好像 最近 这 两天 突然之间 变强 了。 对, 就说 之前 GPT four 在 偷懒, 有 很多人 在 抱怨 G D four 偷懒, 说 他 很多 事情 干活 干 得 不好。 这个 当然 也 非常 有可能 了。 因为 如果 这 世界上 没有 竞争者 的话, 我 本来 可能 会 决定 上线 一个 比较 差 的 模型 以 减少 计算 代价。 但是 如果 有 市场上 竞争者 的话, 他们 才会 出 一个 更好 的 模型。
这个 太 有意思 了。 所以 我们 很 需要 竞争。
是 需要 竞争。 一旦 有 竞争 之后, 马上 就会 让 大家 能 真正 的 感觉到 OK 我 这个 模型 一定要 推出 最强 的 版本。 其实 有 很多 网上 有 很多人 抱怨 了, 就是 G 刚 出来 的 时候 非常 惊艳, 比如 觉得 好 厉害, 但是 越 用 越 差越 用 越 差越 用 越 差越 用 越 差。 甚至 有人 发现 他 会 在 周末 偷懒。
周末 偷懒 就是 周末 的 模型 是 比 周一 到 周五 说。
对对对, 有可能 效果 要 差 的。 对的, 就是 他 可能 也 学到 了 人类 的 一些 数据集 的 一些 bias。 如果你 发现 这个 邮件 是 周末 写 的, 可能 这个 邮件 质量 就 变成 差 了。 他 会 把 这个 连 起来 之后, 可能 会 自动 的 有 这个 BIOS。 周末 的 时候 我 就 写 的 短 一点, 然后 就 不会 回 你的 问题, 或者说 他 会 忽略 你的 一些 情况, 可能 会有 这个 一个 问题。 但是 如果 的话 G P four 就 不得不 保证 自己 质量, 这 其实 是个 好 事情。
对, 接下来 我们 聊 一 聊 meta, 因为 meta 其实 也 开源 了, 我 觉得 它 在 市场上 还是 蛮 受 关注 的。 你怎么看 麦太 开源 跟 他 开源 的 好处?
我 首先 先 声明, 我 不太想 评论 埋汰 的 一些 东西。 因为我 是 埋汰 员工, 所以 我不是 official 的 一个 news provider。 言归正传, 我们 来说 我们 这个 故事, 我 觉得 开源 本身 是一个 好的, 我们 可以 想象 大 模型 的 终局。 一种 可能 是 小数 巨头 垄断市场, 大家 都 向 他 跪拜, 我不 希望 这种 事情 发生。 另外 一种 事情 发生 是 人人 都有 核武器, 大家 形成 威慑 平衡, 我希望 后者 是 成立 的。 如果 是 这样的话, 那 其实 我们 应该 拥抱 开源。 我们 应该 希望 开源 做得 很 厉害, 用 的话 能够 让 大 所有人 都 用上。 这样的话 就是 保证 一个 最好的 一个 生态, 有 竞争 才有 进步 的 空间。 有 竞争 的话, 大家 才会 愿意 分享, 愿意 把 整个 世界 往前 推进。
这样 会 比较 好。 对我 一直 都很 好奇 开源 的 商业模式 是什么? General 的 说 一下 开源 的 商业模式。
我 觉得 商业模式 其实 就是 赚 吆喝 呗, 我 觉得 这 是一个 因为 对 埋汰 来说, 它 不像 google。 对 google 来说, 大 模型 用过 一些 要 些 术 要命 的 business critical 的 component。 因为 google 个 service 大云 模型 其实 提供了 一个 口袋 版 的 google。 如果 哪 天大 云 模型 能力 超过 现在 现有 引擎 的 水平, 最后的 结果 就是 没有人 认为 google 了。 这个 是对 google 不能 接受 的。 所以 对 google 来说, 它是 一个 core business, 所有 在 训练 和 推理 上 的 一个 优化 都 不能 发表 论文, 应该 是 这 样子 的。
但 对于 meta 来说, meta 的 call business 它 不是 这个 它 Michael 是人 和人 之间 连接, 通过 人和 人 之间 连接 来 卖 广告。 所以 对他 来说, 他 当然 希望 所有人 都 均是 所有人 都有 自己的 大约 模型, 相互之间 能够 交流。 用 这个 方式 然后 把 它 可以 作为 平台 获得 一些 利益, 这 是我的 观点 了。 对他 来说, 开源 其实 是 有利于 他的 将来 的 一个 发展。
Meta 内部 的 科研 氛围 是 怎么样 的? 这个 可以 讲一讲 吗?
我 觉得 还是 比较 自由的, 有点像 学校 的 大家 表白 的 up 可以 自由 讨论 一些 问题, 讨论 一些 文章, 最后 能够 找到 一些 想法 做出来。
所以 其实 科研 也是 一个 蛮 开放 的对。
还是 比较 开放 的 一个 方向, 我们 还是 可以 自由的 跟 其他 的 院校 合作 的。
我记得 当时 扎克伯格 去 找 了 坤 的 时候, 他说 如果我 加入 你们, 我的 条件 就是 科研 必须 以 一种 开放 的 方式 进行。 如果你 想 单独 的 以 一种 封闭 的 方式 只在 meta 发 论文 的话, 我不知道 我的 工作 该 如何 的 进行 下去。 所以 他 希望 所有的 东西 在 学术 圈 都是 公开的。
对我 觉得 这个 是个 很 好的 一个 logic。 然后 我们 确实 把 这个 philosophy 贯彻 到 现在 了, 我 觉得 这个 是 非常 好的 一个地方。 就是 一开始 在 创始 的 时候 的 一个 诺言, 现在 还是 能够 保持。
对 最后一个 问题, 我知道 在 A I 研究 业余, 你 自己 也是 一个 科幻 作家。 你 写 了 很多很多 的 科幻小说。 比如说 像 幽夜 星火、 破晓 之中、 血祭 梦想 既是 使命 这些 非常 长篇 的 科幻故事。 因为我 一直 都 觉得 人工智能 科幻, 包括 我们 非常 多 前沿技术, 有的 时候 是要 靠 一点点 想象力 的。 所以 我 还 挺 好奇 你 自己的 科研 从 科幻 中 产生 了 哪些 灵感。
首先 第一点, 这些 小说 不一定 都是 科幻。 我 其实 一开始 写 玄幻 的 不一定 是 科幻。 科幻 可能 就 是从 破晓 中 开始。 其实 之前 也有 一些 科幻 玄幻 结合 的 一些 例子。
但是 我 觉得 其实 写 小说 动因 倒 不是 因为 它是 科幻小说, 动因 是因为 人和 人 之间 的 关系。 比如说 我 觉得 有 一些 很 有趣 的 场景 是 应该 给 它 写 下来 的。 或者说 人生 有些 经历, 这个 经历 让 我 觉得 我应该 写 下来, 然后 让 我 能够 在 十年之后 再 回味 这种 经历。 这种 感觉 并不是 因为 科幻小说 所以 才 写 科幻小说。 它的 动因 不是 因为我 做 research, 或者说 不是 因为我 做 科研。 动因 是因为 另外 一方面 感性 上 的, 或者说 是 某种 人和 人 之间 的 交互 的 这种 方式, 人生 另一种 方式 来 动因 的。
所以 是 自己 生活 的 影子。
对, 是 生活 的 影子。 这个 跟 科幻 关系 倒是 不大, 科幻 是 一层 皮, 很多 时候 是 这 样子。 小说 最 重要 是人 和人 之间 的 关系人 和 人的 角色 的 塑造。
知识 是 最 重要 的。 你 会 花 多长时间 写 小说?
这个 要 看。 比如说 破晓 之中, 大概 在 2020年 年底 的 时候, 在 知乎 上 连载 过。 那 段时间 我 连连 载 岁, 我 就 不得不 每天 都要 花点 时间 写 一下。 现在 还在 连载 吗? 现在已经 连载 完了。
这 连载 的 时候 你 写 完了 这部 小说 之前 其实 准备 了 很 长时间, 因为 有 很多很多 的 小的 interesting idea, 我要 把 它 写进去, 说 这部分 我要 写成 行行。 最后 你 要 找到 故事 盘 全部 连 起来。 所以 大概 花了 五年 的 时间吧, 我 觉得 我 大概 在 刚刚 去 meta 的 时候, 去 meta 的 前几年 的 时候, 反正 就是 有些 时候 有 一些 想法, 有些 像 interesting 那个 Spark 对 吧? 你可以 把 它 写 下来, 我 一般 会 先 写 场景, 场景 写 完 之后 再 把 它 场景 连 起来, 变成 一部 有趣 的 故事。 这个 过程 其实 要 花 一点 时间 的。
现在 做 爸爸 了, 还有 时间 写 科幻小说 吗?
现在 其实 挺 忙 的, 而且 我们 最近 研究 也 挺 忙。 大约 模型 出来 之后, 我 基本 没有 什么 时间 做 一些 其他 的 事情。 但是 如果 有空 的话, 你 还是会 继续 的, 还是 想 继续 写。 会 想 因为 总是 会有 一些 想法, 那 只有 一些 想法, 这些 想法 其实 你 把 记录下来 其实 很 可惜。 你 把 它 记录下来 之后, 你 会有 一些 新的 思路, 新的 想法。 因为 有的 时候 脑子 再 换 一个 思路, 想 一些 不同 东西 很 有意思。
谁 是你的 科幻 启蒙?
很难 讲, 我也 不是 特别的 明确, 就是 什么样 的 算 一个 科幻 启蒙。 我 觉得 以前 看过 漫画, 这些 漫画书 可能 会 比较 不能说 是 科幻 启蒙, 应该说 是 玄幻 启蒙。 或者说 是 对于 一个 世界 应该 怎么 构造, 或者说 这个世界 什么样 东西 让 我 觉得很有 意思。
你喜欢 哪些 作品 中的 构造?
这个 其实 挺 难说 的, 当然 三体 肯定 是一个 例子, 但是 三体 其实 算 出来 的 比较 晚 了, 在那 之前 应该 有 很多。
的 暴露 年龄 了。
对, 我们 都很 老了, 我 已经 很 老了。 最早 比如说 漫画, 像 最近 鸟山明 先生 去世 了。 其实我 很早以前 就 特别 喜欢 看 他的 七龙珠 系列, 他们 这种 画的 很 好的 大师, 他们 每 一帧 和 每个 镜头 的 切换 和 悬念 塑造 都 非常 好。 直接 导致 了 这就是我 在写 的 时候, 我 还是会 想 很多 多线 并行 的 剧情 和 悬念 的 塑造 和 人物 的 塑造, 这 都会 去 思考, 这个 可能 会 潜移默化 改变 我的 一些 想法, 或者 一些 小说 的 一些 思路。 我 觉得 我 很 幸运 的 是, 我们在 小时候 接触 的 漫画 都是 顶级 的。
真的 是真的 是对。
那个 时候 确实 是 非常 好的。 如果 就 真的 去 想 整个 故事 的 逻辑 的话, 那 其实 就会 学到 很多 东西。
好的, 非常感谢 田 博士。
这就是 我们 今天 的 节目。 如果 大家 喜欢 我们的 节目, 欢迎 在 你 所 收听 的 播客 渠道 订阅 我们, 也 欢迎 给 我们 一个 五星 好评。 中国 的 听众 可以在 苹果 播客、 小宇宙、 喜马拉雅、 蜻蜓 F M、 荔枝 F M、 网易 云 音乐 来 关注 我们。 海外 的 听众 可以 通过 apple podcast、 spotify 还有 youtube 来 关注 我们。 感谢 大家 的 收听, 谢谢。