We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode 贫穷限制 AI 想象?|硅谷徐老师对话英伟达、DeepMind 大模型专家(下)

贫穷限制 AI 想象?|硅谷徐老师对话英伟达、DeepMind 大模型专家(下)

2023/8/17
logo of podcast What's Next|科技早知道

What's Next|科技早知道

AI Deep Dive AI Chapters Transcript
People
J
Jim Fan
戴涵俊
硅谷徐老师
Topics
Jim Fan:多模态模型的pipeline还不确定,学术界和工业界都在探索中,Llama 2可以作为很好的推理引擎,提升多模态模型效果。一种方法是将其他模态作为插件接入已有的大语言模型,例如将图像信息处理后融合到Llama 2中。Llama 2可以作为强大的推理引擎,通过插件方式提升多模态模型,尤其在机器人控制领域。多模态的可能性很多,包括视频、音频、3D等多种模态的输入和输出,应用方面还在探索中。 戴涵俊:处理多模态有两种方法:一种是将其他模态作为插件接入现有单模态模型;另一种是将不同模态统一到一个空间中进行处理。第二种方法更原生,但成本更高。现在的文本是大模型世界在低维空间的投影,大模型通过大量数据理解高维世界,但效率低。语言可能是智能最重要的部分,但视觉信息处理在人类大脑中占很大比例,这暗示了多模态的重要性。人类容易理解的事物对机器很难,反之亦然,这说明语言理解可能比视觉理解更重要。大模型在某些方面(如组合数学)可能优于人类,但在大多数方面仍远低于人类,这表明用人类智商测试评估大模型并不合适。多模态最大的未来应用是机器人,解决机器人多模态问题是实现机器人普及的关键。GPT-4的视觉部分提升了其在某些基准测试上的表现,尤其是在需要理解图像信息的任务中。图像信息冗余度高,如何高效表达图像信息是多模态模型的关键挑战。大模型需要能够适应不同企业和应用场景的特定工具和语言,这是一个挑战。 硅谷徐老师:ChatGPT的成功在于其易用的UI和强大的基础设施,而非模型性能本身。大模型应用中,需要多次调用模型才能完成一个任务,这被低估了,需要改进。机器人的难度被低估了,包括硬件、产能和算法等方面。大模型的评估方法被低估了,需要开发自动化评估方法。长期来看,GPU算力不会成为瓶颈,但评估方法的改进和目标函数的设计至关重要。 Monica:

Deep Dive

Chapters
本部分探讨多模态模型的工作原理,以及Llama 2如何通过插件式集成其他模态数据,推动大模型生态发展。嘉宾们还讨论了多模态的未来方向和应用场景。
  • Llama 2作为强大的语义理解引擎,可以提升多模态模型效果
  • 多模态模型的pipeline仍不确定,学术界和工业界持续探索
  • 多模态的可能性很多,包括视频、音频、三维等模态及不同输出模态

Shownotes Transcript

Hello, 大家好, 在 节目 的 开始 想要 和 大家 分享 一个 消息, 生动活泼 正在 招募 播客 节目 监制 和 声音 设计师。 如果你 对 全球 商业 科技 的 动态 充满 好奇, 同时 热爱 文字, 擅长 逻辑, 我们 愿意为你 提供 全职 或 四个 月 以上 的 实习 机会。 欢迎 在 本期 节目 S O N O T, 也就是 单机 介绍 中 查看 职位 信息 和 申请 方式。

期待 你的 来信。

用 声音。

碰撞 世界。

生动活泼。

大家好, 欢迎来到 科技 早知道。 这 一集 也是 我 和 Monica 的 播客 节目 on board 的 一个 展台。 这 一期 的 嘉宾 有 NVIDIA 的 高级 研究员, 斯坦福 博士 jm fan n 以及 kage men P H D google deep mind 的 高级 研究员 韩 军博士。 因为 节目 时间 比较 长, 我们 分 上下 两 集 播出, 现在 你 收听到 的 是 下 半集, 我们 聊 了 什么时候 会有 做饭 做 家务 的 机器人, 也 继续 深挖 嘉宾 们 对 大 模型 的 洞见, 包括 为什么 GPT3年 前 发布 的 时候, 让 斯坦福大学 自然语言 部门 觉得 快要 完蛋了。

Jim 同学 不但 技术 过人, 也是 网 红。 在 节目 的 最后 我会 问 他, 当 亚马逊 创始人 贝佐斯 发起 关注 他的 推 特号 的 时候, 他 有什么 想法? 好的, 接下来 进入 我们 今天 的 节目。

正好 下一个 话题 也是 由 辣 妈 兔 衍生 出来 的。 其实 很多人 看到 辣 妈 兔 的 时候, 觉得 那 还是 一个 大 语言 模型。 但是 jim 其实 在 拉玛 兔 发布 了 以后, 你的 一个 twitter 上面, 我 觉得 你 提 的 挺 有意思 一个点。 你说 其实 拉拉 兔 对于 这个 multimodal 就是 多 模态 的, 还有 robotics, 我想 也是 你 很 关注 的。 这两块 其实 有 很 会 带来 很大 的 一个 一个 推动 进来。 这个 跟 大家 解释一下 为什么 你 会 这样 去 看 了。

二 的 作用, 我 觉得 多 模态 是一个 非常 有意思 的 问题。 我 觉得 现在 基本上 大 语言 模型 总的 一个 recipe 已经 都 定下来, 就 可能 寓 训练, 然后 后面 就 find to 2F等等。 但 我 觉得 其实 现在 多 模态 这 一块, 整个 pipeline 其实 还 非常 的 不确定。 而且 我 觉得 其实 学术 圈 也好, 可能 工业界 也 不断 在 探索 多 模态 有 几类 做法。

其中 有 一类 就是 基于 一个 已有 的 大 语言 模型, 然后 把 别的 模态 给 像 插件 一样 接入 进去。 比如说 我在 英伟 达 带 了 一个 in turn, 我们 大概 几个 月前 做了 一个 项目 叫 primmer。 其实 想法 非常简单, 就是 比如说 把 一个 图片, 然后 先 用 一些 计算机视觉 的 一些 模块 来 处理 一下。 比如说 分析 下 它的 这个 里面 的 物体 这种 segmentation 或者 就是 分析 这个 深度 depth, 然后 C D 一些 信息。 然后 再 把 这 信息 融合 到 一个 大 语言 模型 的 一个 backbone 上面 去就 像 一个 插件 一样。 然后 通过 这个 方法, 现在 世界 里面 就 这种 视觉 信息 它 就 能够 理解。

然后 我 觉得 当时 我们 用 的那 语言 模型 就是 比较 差。 但是 现在 lama 2出来 的话, 我 觉得 它是 可以 作为 一个 非常 好的 一个 这种 推理, 或者 这种 语义 的 理解 的 一个 引擎。 然后 把 这个 别的 模态 接 进去, 我 觉得 可以在 相对 少 一些 的 计算 量 的 情况下, 就 能够 做到 一个 还 不错 的, 在 开源 模型 里面 还 不错 的 一个多 模态 的 效果。

所以 这是为什么 我在 推特 上 提到 了 这一点。 然后 另外 的话 就是 做 机器人 这 一块, 就 比如说 这些 机器人 要 做 规划, 然后 还有 就是 他 要 输出 一些, 那个 机器人 就 控制 了 一些 可 然后 其实 也是 可以 通过 一个 插件 的 方式, 只不过 这次 这个 插件 是一个 输出 的 插件, 它 输出 的 不再 是 下一个 单词, 它 输出 的 是一个 机械手 的 一个 控制 的 一条 指令。 然后 这个 的话 也是 可以 这种 多 模态 的 模型, 也是 可以 通过 lama 2这样 一个 很强 的 一个 backroom 来 提升 它的 效果, 所以 这是 一点。 另外, 我也想 稍微 buck off 一下, 然后 讨论一下 多 模态 这 整个 包括 它 未来, 还有 现在 这个 情况。

然后 我 就 多 模态 很 有意思, 因为 首先 模态 是什么 对 吧? 我 觉得 那个 GPT4 说 多 模态, 但 其 GPT4 就是 它 把 文本 和 图片 输入, 然后 它 输出 文本, 它是 一个 非常 特定 的 一个多 模态。 但是 其实 就 还有 别的 模态, 比如说 有 视频, 视频 就是 一大堆 图片 对 吧? 就是 在 一个 时间轴 上面 展开, 然后 还有 音频, 甚至 还有 三维。 然后 三维 这 一块 的 这个 格式 可能 还有 各种 不同 的 格式, 然后 还有 就 输出 的话 有 不同 的 模态。 比如说 这个 机器人 的 控制, 甚至 鼠标 和 键盘 也是 一种 模态。 所以 我 觉得 动 模态 的话 就是 可能性 非常 的 多。

然后 现在 包括 在 应用 上面, 我 觉得 大家 还在 探索 中, 因为 就 G P4 的 这个 多 模态 的 P I 现在 大家 还 不能用。 但是 比如说 我可以 想象 到 可以 通过 截屏, 然后 这样的话 这个 GPT 它 就 能够 理解 这个 网页 里面 的 东西。 然后 他 可能 做 一些 刚刚 说 的 一些 智能 体 的 一些 操作, 或者说 是 可以 借助 机器人 等等。 然后 这 一块 也 想听 一下 google deep my 这边, 因为我 知道 german 其实 也是 一个多 模态 的 模型, 所以 这块 就是 不少。 韩俊 怎么看?

对我 非常 同意 东方 他 也是 一个 是一个 future, 以及 现在 可能 有 两种 方式 去 approach 它。 像 一方面 像 jim 说 的, 如果现在 可能 已经 有一个 单 模态 的 模型, 那 我 想办法 吧 其他 的 模块 作为 插件 给 poking 进去。 比如说 要 生成 image 的话, 这样 其实 还是 deputation model, 还是会 比 这种 outgoing model 或者 至少 它 更 cost defective, 或者 是 quality 更好。 那 diffusion 就和 现在 的 这种 auto test language model 本身 就 不太 一样。 所以 如果你在 这 做 一个 插件, 进去 condition 你的 text 的 instruction, 然后 去 用 division model 再去 做 的话, 其实 是一个 我 觉得 是一个 walk around。 但是 我 觉得 是一个 非常 不错 的 work。 但 另外一个 direction, 我 觉得 是啊 我们 之前 像 image, 也有 很多 token ize。 这些 work 把 一个 连续 空间 的 image 转化成 离散 空间 的 一些 token, 就是 把 它 当做 tax 来 处理, 这是 其实 我们 最近 也是 在 i clear 也 做 过 一些 类似的 工作。

怎么 去 用 division model 把把 这个 taps 和 因为 toko ized image 给 unified 在 这个 space, 然后 用 一个 unified 的 view ch 做 生成 模型。 这个 可能 是一个 更 native 的 做法。 比如说 车 爆胎 了, 然后 我要 怎么 换 备胎 这件 事情。 如果你 网上 去 看 攻略, 可能 看 了 半天 可能 有些 看 不太懂。 但是 如果 就 一个 短短的 几秒钟 的 youtube video, 直接 跟 你 电话 一下, 就是 把 这个 现金 你 怎么用 一下, 然后 非常容易 去 跟 你 评论 的 K 对对对, 所以 怎么 理解。

这 两个 approach, 这个 核心 的 区别 会 带来 什么样 的 变化 呢? 就 听起来 的确 第二种 更加 的 native, 那是 说 他 会有 一个 更高 的 intelligence, 可以 做 一些 前 一种 听起来 比较 friendly, 比较 低成本 的 做法 做不了 的 事情。

一方面 是 说 如果 前 一种 可能 大 概率 情况下 的 这个 base model 可能 会 比如说 freeze 就 不动 了。 然后 你 包括 像 地 判 之前 一些 类似的 工作, 是 把 这个 部分 给 freeze 掉, 然后 我 接上 image 部分, 然后 再去 只 调 image 部分。 所以 就会 带来 一部分 是你 image 是 完全 去往 language model 那边 靠。 但是 language model 其实 它 自己 那 部分 没有 去 take into, the fact 就是 它 会 consume image 这边 的 input, 是 GPT four.

就是 这么 一个 做法。 具体 怎么做 不是。

但 我确定 他们 应该 是 在在 pressure 的 时候, 就 把 这个 image 和 tax 的 希望 可能 就是 在 更 原生 的 层面 去 把 它。

你 觉得 它是 更加 原生。

的 更加 走 才 对对对, 因为 他们 完全 有 这个 能力 去做 这件 事情, 以及 这样 可能 会 更更 自然 一点。 其实 对。

我 好奇 就是 大家 对于 多 模态 的 一个 期待, 是 说 大家 很 明显 想到 他 能够 enable 更多 新的 场景, 这个 robotics 等等。 大家 会 期望 多 模态 对于 它 这个 foundation model, 这个 智能 本身 会 带来 一个 大 的 提升。

我 觉得 这 是一个 可能 偏 哲学 一点 的 问题, 我我我 是 那么 理解 这个 事情 的, 当然 就是 欢迎 大家 就 一起来 debate。 对我 的 理解 是 就现在 的 文本 是 我们 这个 多 模态 世界 在 异维 上 的 投影。 对 然后 有一个 很 有意思 一个 实验, 就是 GPT4 其实 它 能够 理解 颜色。 但是 就 比如说 你 把 颜色 用 RGB 那个 hacks code 作为 一个 文本 输进去, 然后 你可以 跟 他 你可以 问 他 哪个 颜色 比 另外一个 颜色 更 暖色调, 哪个 颜色 比 另外 的 颜色 更 热情。 然后 他 其实 会 回答 的 是 对的。 并且 他 有 一些 泛化 的 能力。 我 觉得 就是 因为 吉利斯 他 看过 大量 的 这样的 数据。

然后 其实 在 网上 可能 大家 在 讨论 这些 东西 的 时候 会 提到 这些。 比如说 你 在 做 网站 设计, 你可以 在 讨论 这 几个 RGB 的 颜色。 从 这 里面 GPD4 其实 它是 在 这个 一维 的 投影 上来 理解 我们 这个 非常 高 维度 的 这个世界。

但 这样的话 就有 几个 问题, 就是说 第一 它 肯定 是一个 它的 效率 很低, 因为你 要 大量 的 数据 来 补充 这个。 但是 第二 的话, 我 觉得 也可以 argue, 就是 文本 作为 一个 智能 的 一部分, 可能 是 最 重要 的 一部分。 因为我 觉得 文本 的 理解, 就是 语言 的 理解, 是 我们 人和 动物 的 区 动物 的 视觉 系统 非常 的 强我 举 个 例子, 前两天 就是我 看到 youtube 上面 有一个 很 有意思 的 实验, 是 他们 让 一个 大猩猩 来 玩 minecraft, 他 能够 理解 里面 各种 不同 的 东西, 还 能够 敲 这个 墙 什么的 之类 的, 他 都能 理解。 但是 可以 大家 想想 这件 事情 是 多少 的 不 自然。 因为 对于 大猩猩 来说, 这个 mine craft 的 视觉 上 的 它的 texture 等等, 还 包括 my craft 里面 的 物理, 所有的 这些 东西 和 自然 世界 的 法则 非常 的 不一样, 看上去 觉 非常 不像。 然后 这个 大猩猩 他 自己 以及 他 所有的 他的 祖先 都 从来 没有 见过 my craft 的 这样的 一个 视觉 的 一个 情况。 但是 他 几天 训练 下来, 他 全都 懂 它 里面 这个 三个 为什么 他 都能 理解。

然后 我 觉得 大猩猩 视觉 系统 已经超过 我们 现在 最强 的 计算机视觉 的 算法。 所以 我 觉得 这就是 一个 叫做 morphic 的 一个 悖论。 就是说 我们 人 觉得 简单 的 东西 对于 机器 觉得 很难。 我们 人 觉得 很难 的 东西 或者 很 牛逼 的 东西, 在 算法 里 实现 反而 不是 那么 难。 然后 我们 一直 觉得 这个 语言 是一个 智能 的 最强 的 东西。 然后 像 人 的话, 推理 什么 都 不是 一件 简单 的 事情。

但是 我们 拆 GPT 先 到了 GPT4, 几乎 已经 是 就 快要 到了 那 一步 了。 但是 我们 人 或者 甚至 星星 都能 做 的 事情。 现在没有 一个 计算机视觉 的 模型 能够 不在 minecraft 上面 训练, 就 能够 one my craft 根本 做不到。 因为 这个 有一个 巨大 的 一个 抖 音感, 他 这个 泛化 能力 非常 的 弱。 就是 有 一本书 上面 他说 就是说 人 其实 大脑 的 70% 的 大脑皮层 其实 都是 处理 视觉 信息。 就 我们 这个 神经元 的 班委 很多 是在 处理 其实 视频 的 信息。 对, 就 大量 的 这样 一个 视频 进来, 然后 我们 再 试图 在 理解 这个世界, 然后 剩下 的 语言 什么 部分 就 只占 了 剩下 的 30%。

所以 这也是 一个 很 有意思 的 就是 自然 演化, 就是 不断 的 进化。 最后 我们 人的 大脑 是 这样 一个 结构。 所以 我要 处理 视频 信息 这 一块 可能 就是 必须 的 必须。 但是 路 也很 长, 就 可能 从 计算 的 角度 来说 也是 远高于 文本。

你 这 让 我想 我们在 讨论 A G I 的 时候, 经常 会 去 拿 这 一些 人类 的 智商测试 来去 测 大 模型, 来去 讨论 它 是否 达到 A G 像 你说 如果说 本来 这个 对 一个 事情 难易 程度 对 大 模型 就 不一样, 说 也许 我们在 讨论 一个 大 模型 的 intelligence 的 时候, 其实 也 不应该 用 人类 的 这种 测试 的 方式。

对, 特别 echo 这一点。 以及 包括 像 比如说 现在 有 很多 工作 做, 让 大 模型 去做 数学 定理 的 证明。 然后 会 他 发现 大 模型 在 某一类 数学 问题 上, 比如说 组合 这种 类型 问题 上, 它 其实 定理 证明 可能 比 人类 的 这种 数学家 可能 会 证明 的 会 更好 一点。 但是 像 绝大多数 还是 远 低于 人类。 所以 就是说 他在 擅长 的 地方 和 人类 擅长 的 地方 可能 确实 有一个 miss lemon。

或者说 我们 自己 哪怕 是 理解 微积分 的 时候, 我们 也会 通过 这种, 比如说 面积 这些, 怎么 把 这个 东西 切割成 小块 这些 方式 去 理解。 然后 忽然 发现 这个 抽象 的 概念 就会 会 更 深刻 的 理解。 但是 建立 在 这个 基础上, 就是说 人类 的 视觉 系统 会 可能 会 比 现在 的 machine 的 视觉 系统 强大 很多, 以至于 他 会 去 更容易 去 帮助 他。 如果说 回到 multi moderating model, 如果 这个 视觉 本身 需要 消耗 它 很大 一部分 模型 的 capacity 的话, 它 是不是 值得 吹 到? 我 觉得 短期内 来说, 在 事情 当中 让 我 believing 这个 还是会 互相 multi benefit。 Al.

对我 的 理解 是从 应用 的 角度, 就 刚才 讲 一些 哲学 的 角度, 但 我 觉得 从 应用 的 角度 来说, 多 模态 最大 的 未来 应用 就是 机器人。 因为我 就要 解决 机器人 一定要 解决 多 模态 的 问题, 而 机器 其实 比多 模态 更难 一些。 因为 还有一个 输出, 就是你 要 就 比如说 control, 假设 有 五个 手指 的 这样 一个 机械手, 要 就 控制 他 做 一些 人 这个 五个 手指 的 手 能够 做 的 事情, 其实 非常 难。 所以 这 一块 其实 也是 比 大猩猩 要 差 了 很多 的。 甚至 我 觉得 狗和猫 它们的 运动 能力 都 远高于 现在 波 顺 动力 的 那些 机器狗。

然后 我 觉得 解决 多 模态 只是 解决 机器人 的 第一步。 像是 它 解决 的 是 先 解决 输入 的 问题, 它 能够 理解 这个 时间, 然后 输出 的话 可能 还要 通过 别的 方式 来解决。 所以 我 觉得 长远 来说 这是 最大 的 应用。 然后 我也 觉得 下一个 就是 ChatGPT 之后, 下一个 最大 的 A I 革命 其实 就是 机器人。 如何 让 机器人 普及, 机器人 成为 每家每户 就像 iphone 1样的 存在。 然后 我 觉得 这个 可能 是 下一个 工业革命。 对, 但 现在 我们 距离 那个 还差 了, 我 觉得 好几个 突破。

我 好奇 韩剧 你怎么看? 刚才 前面 我们 聊到 就是说 加入 多 模态, 你 期待 能够 对他 这个 intelligence 本身 又有 怎样 提升?

其实 当时 我记得 GPT four 他 自己 也有 release 这种 对比, 就是说 GPT four ways 的 那个 vision 部分 enable 的 或者 是 text only。 GPT4 他在 一些 benchmark 上 对比, 其实 他 有 一些 在 甚至 在 做题 方面 他 会有 提升, 这 是一个 很 明显 的。 就是说 他 如果 能够 理解 一些 文本 的, 比如说 可能 一些 问题 里面 本身 就 包含 对 一些 图片 的 问题, 比如说 数学 证明 这种 他 确实 我 觉得 是一个 很 明显 的 sick, 就是说 他 会 帮助。 然后 有 一些 地方 可能 你 不得不 去 理解 这个 图片, 像 抽象, 像 jm 说 的 这个 robotics 的, 或者说 像 可能 一开始 提到 的 你 在 做 web navigation, 就是 网 流量 网页 的 时候, 它的 渲染 出来 的 C S S 渲染 出来 的 之后 的 这个 网页 会 比 直接 原生 的 那个 H D M I 代码 会 更容易 理解, 至少 对人 来说 可能 是 这样。

但是 可能 这 中间 有 个 主要 的 gap 是 vision 的 很多 信息 是 冗余 的。 包括 就是你 看到 这么 多个 pixel, 就是 它的 dimension, 它的 维度 远高于 你的 text 的 它 真正 的 有 信息量 那 部分。 所以 其实 image 可以 被 压缩 的 很大, 就是 压缩 的 比例 很大。 但是 像 文本 的话, 它是 一个 更 concise 的 方式 去 表达 信息。 所以 这方面 如果说 能够 让 它的 表达 的 效率 能够 对齐 的话, 因为 这时候 可能 一开始 提到 为什么不 一定要 把 image 作为 原生 的 pixel level 去 表达。 而是 说 在 一个 encoded space 去 表达 会 更容易 去 along with 其他 的 model。

对我 再 补充 一下, 我 觉得 从 数据 的 角度 来说, 视频 是一个 巨大 的 镜框。 然后 现在 感觉 大家 还没有 完全 开发 这 一个 巨大 的 金矿。 我们 可以 想象 视频 有 多少 视频, 对 吧? Tiktok youtube 上面 每天 有, 我 都 估计 不 出来。 但是 这些 视频 其实 生成 了 这个 数据量, 其实 远高于 我们 现在 那么 多 芯片 能够 处理 的 量。 而且 视频 里面 有 大量 的 这种 信息, 不仅 是 人的 一些 日常 的 一些 活动 的 一些 信息, 有 这种 语义 的 信息。

然后 它 还有 物理, 我们 称之为 叫 intuitive physics。 这种 直观 的 物理 可能 比如说 我 现在 把 这个 杯子 从 这个 桌上 推下去, 我 就 知道 它 会 打碎。 但 我 可能 不一定 知道 这个 碎片 到底 是 怎么样 一个 精确 的 一个地方。 这 我不知道, 但是 我是 会 估计 出 这是 会 发生 的 事情, 所以 这 叫做 intuitive physics。

然后 我 觉得 大量 这个 视频 里面 其实 能够 有 很多很多 这样的 信息, 还 包括 风吹 过来 这个 树叶 会 动 等等。 其实 这些 东西 我们 不是 从 单张 图片 里面 理解 的, 是从 大量 的 视频 里面 理解。 对于 人 来说 也是 这样。 其实 我们 人 每天 大部分 情况下, 我们在 处理 的 是 视频流。 少部分 情况下 我们在 聊天, 我们在 处理 文本。 大量 的 情况下, 其实 视频 如果 从 人的 智能 角度 来说 的话, 视频 是一个 很 好的 切入点。 但 现在 还 没有我 觉得 还没有 一个 学术 圈 工业界 一个 统一 的 一个 算法 来来来 处理 视频。 这个 视频 的 GPT 到底 长 什么样, 我 觉得 这个 还有 待 讨论。

所以 这个 会 带来 说不定 下一个 涌现 能力。 那 可以 简单 跟 大家 讲一讲, 就是说 那你 刚 提到 这个 还没有 一个 共识。 那 现在 要 能够 处理 这些 多 模态 的 数据 作为 一个 training data 的话, 核心 的 几个 难点 在哪?

一开始 提到 的 比如说 像 image 或者 video, video 可能 是个 更 高维 的 一个 数据 表达。 就是 可能 短短 几分钟 视频 可能 就 占 了 好几个 G 的 空间, 但 很 大部分 是 冗余 的。 所以 其实 如果 能够 如何 把 这个 信息 用 更 compact 方式 去 表达, 我 觉得 是 会 帮助 去 你 后面 去 理解, 去 生成。 对, 其实 最近 很大 一个 trend, 在 学术界 就是 把 这个 视频 也 把 它 给 tokenizer。 是的, 是你 能够 把 它 像 语言 一样 处理 这种 离散 的 一个 单词, 这样 一个 表达形式。 然后 这个 方面 有 做 很多 像 视频 生成, 包括 之前 google 的 一个 像 fina k 这样的 一个 text to video 这样 一个 模型。 以及 最近 有 很多 这种 给你 一个 一开始 的 图片, 然后 让 你 把 这个 图片 让 它 给 动起来, 很多 模型 都是 会 基于 这样 一个 技术。

我 觉得 有有 好几个 点, 一个 是 说 你 把 它 偷回来 的 时候, 你可以 利用 像 现在 的 蓝 规, 你们的 学到 了 很多 这种 技巧, 把 它 给 同样 做 生成 来回 的 方式 去 生成 视频。 但 以前 是 指 如果 直接 在 视频 的 空间 是 做事 做不到。 因为 它的 对面 生态 维度 太高, 就 每 一帧 可能 就 已经 有 上 几百万 几千万 个 像素。 不太可能 去 在 那个 lever 去做。 但是 另外 一方面, compress 之后, 它 也会 让 很多 冗余 信息 被 filter 掉, 使得 它 能够 更 efficient 去 表达。 至少 短期 来说 是在 现有 的 算 力 和 算法 这个 能力 的 基础上, 是一个 非常 不错 的 trade off。

其实 我们 刚 讲 了 很多 模型 本身, 算法, 还有 这个 哲学 层面 的 东西, 我们 聊 的 具体 的 就是 工具。 大家 看到 就是说 现在 大 模型 大家 真正 在 无论是 在 training 还是 在 应用 的 这个 过程中, 还有 哪 一些 你 觉得 从 工具 层面 需要 弥补 的 一些 gap。 或者说 哪些 你们 可能 不得不 为了 train 或者说 deploy 大 模型, 不得不 内部 去 开发 的 东西。 你 觉得 其实 它 可能 可以 被 广 更 广泛 的 使用。

对, 其实我 觉得 工具 和 之前 我们 聊 了 很多 的 agent 是 非常 相关 的 一个 话题。 我们 可能 对 因为 你的 agent 要 能够 去 跟 外界 去做 反馈 或者 是 做 decision, 其实 还是会 leverage 的 很多 工具, 然后 也会 对 外界 产生 影响。 但是 我 可能 更 想说 的 一点 是, 工具 也 分好 多种。 有些 是 像 比如说 generally 的 去做 一个 搜索引擎, 或者 是用 一下 派送 一些 已经 有的 library。

但是 其实我 我 更 care 的 是 说, 他 能不能 去 adapt, 是一个 新的 工具。 比如说 用 一个 a apply 一个 大 模型。 在 一个 企业 的 应用 场景 中, 因为 这个 企业 他 自己 有 自己的 一套 工具 量。 所以 这套 工具 量 或者 是 他 自己的 dom specific language 这些 东西 是你 在 大 模型 的 训练 什么, 这 都 不会 见到 的 那些 工具。 但是 你 要 能够 让 他 去 adapt 到 这个 具体 的 应用 场景, 我 觉得 这 是一个 非常 有意思 的 问题。 包括 最近 其实 有一个 比较 两三个 月 之前, 一个 就是 纯 用 procedure generation 去做 video generation 的 那个 lab, 也是 当时 做 ImageNet 那个 lab 出来 的 一个 工作。 对, 但 他 那个 是 纯粹 是 靠 graphics 去 生成 这些 video。 所以 如果你 要说 如何 让 language model 能够 去 用 这个 工具, 如果 能够 用上 的话, 那 他 就可以 直接去 原生 的 去 做到 text 2 video 这样 一个 事情。

好, 我们 剩下 两个 问题, 我们 快速 的 讨论一下。 我 觉得 第一个 就 给 这个 dream 跟 韩俊, 二位 都在 open I 工作 过, 算是 也是 在 几年 前 了。 你们 觉得 欧莱雅 有 哪些 让 你们 自己 印象 特别 深刻 的? 这个 地方 可以 简单 谈 两句。

对, 就 我 16年 那个 时候 是 欧莱雅 第一次 有 英特尔。 欧莱雅 差不多 在 15年 的 时候 成立 的。 所以 16年 那个 暑假 的 时候, 澳大利亚 还是 在 一个 探索 的 状态。

其实 大家 都在 喊 A G I, 我 觉得 AGI16年 是 open I 就是 一个 口号 了。 大家 都是 希望能够 达到 H I 但 大家 都 不知道 去 H I 路 应该 怎么走。 其实 当时 OpenAI universe 就 一开始 我 提到 的 就是 训练 A R 来 控制 鼠标 和 键盘 那个 项目。 其实我 觉得 当年 open I 觉得 是 最 直接 的 走向 A G I, 因为 没有 比 这 更 通用 的 一个 界面 了, 对 吧? 就是 至少 在 这个 数字世界 里面 没有 比 这 更 通用 的。 但是 后来 发现 就是 用 强化 学习 的 方法, 这个 泛化 能力 什么 都 不行。 所以 其实 那个 项目 最后 open 也就 下 down 了 那个 项目。 然后 在 同期 的 时候, OpenAI 也 在 做 游戏, 那个 时候 open 是 有一个 grand chAllenge, 就是 要 赢 dota, 要在 dota 上面 赢 过 人类 的 世界冠军 的 团队。 16年 那个 时候 已经 刚 开始 搭 了, 然后 可能 韩俊 在 的 时候 开始 慢慢 达到 一个 巅峰 的 状态。

然后 同期 还有一个 机器人 的 项目, 对, 然后 欧 班 牙 当时 做了 一个 机械手, 机械手 是 能够 解 魔方, 然后 就是 五个 手指 一个 机械手。 对, 所以 这是 另外一个 项目。 当时 他们 也 觉得 可能 机器人 也是 通向 A G R 的 一个 必经之路。 然后 还有 在 同期 有一个 小哥, 然后 他在 那边 在 reddit 的 数据 上面 训练 chabot, 但 那个 时候 还没有 transformer。 他 当时 用 的 是一个 更 旧 的 一个 模型 叫 LSTM, 就 一个 回馈 式 的 神经网络。 对, 然后 他的 名字 叫 alec radford。 当时 我 觉得 至少 我没有 理解 为什么 要 训练 一个 chatbot。 对, 但 他 当时 其实 就是 用 这个 回馈 式 神经网络 来 预测 下一个 单词。

其实 16年 的 时候 就有 这个 影子, 只不过 那个 时候 没有 穿梭 面, 效果 不是 很好。 而且 大家 也没有 想到 要 scale up, 也没有 想到 要 对 更多 的 算 力。 但是 那个 其实 是 GPT, 可以 说 GPT0, 就 最早 的 GPT 的 影子 16年 的 时候 就有 了。 但是 说实话 我 觉得 那个 项目 当时 在 open a 里面, 并不是 一个 很高 优先级 的 项目。 我 刚刚 提到 open universe dota 还有 那个 机器人, 可能 是 前三名 的 项目, 但 那个 时候 还是 一个 探索 的 阶段。

对我 觉得 进入 这个 建议 非常 好。 这是我 18年 进去 的 时候, 我 一直 能 看到 当时 的 那些 演化 到 18年 是个 什么 状态。 对, 首先 18年 的 时候 确实 那些 project 还在, 然后 当时 他们 推出 那个 robot hand 怎么 去 玩 一个 魔方 以及 多达 team。 当时 那个夏天 是 至少 打进 那个, 反正 top player 还是 那 对 对, 还是 有来 有 回 的。 虽然 不是 最 顶尖 的, 但是 已经 我要 about average。

然后 我 当时 在 实习 的 也是 叫 games team, 其实 当时 也是 有幸 跟 john 实习。 我们 那个 games 可能 更 像是 在 那种 说 你 让你玩 几个 游戏 之后, 给你 一个 新的 游戏, 你 能不能 更快 的 去 在 熟悉 那个游戏。 当时 觉得 人类 跟 机器 当时 的 机器 比 起来, 人类 的 这个 sample efficiency 是要 高 很多 的。 你 可能 只要 少量 的 样本, 你 就可以 学到 新的 知识, 新的 能力。

然后 关于 说到 的 这个 GPT0 的 事情, 我 当时 应该 是 已经 差不多 GPT2, 可能 他们 交 了 一篇 paper, 就是 可能 是 maybe GPT2, 然后 交到 neighs 还是 那个 conference, 然后 reveal 然后 当时 在 毛体 们 就在 那个 组 会上, 跟 大家 把 这个 reveal 非常 harsh 的 评论 给 大家 念 出来。 当然 目的 是 说 你看 我们在 achieve A J I 道路 上 只能 有 这些 不识相 的 人, 总有, 这 不是 让人, 但 就 绝对 不会 阻碍 我们的 决心。 对, 当时 我 其实 没有 太 放在心上。 现在 回过头来 看, 他们 其实 当时 就是 非常 dedicated, 就是 这个 direction 了。

已经 就是 18年 的 时候, 以及 我 觉得 非常 佩服 的 三方 地方, 或者 他们 整个 管理 团队 的 这个 vision。 虽然 中间 也是 很 走了 很多 弯路, 其实 像 game 这些, 其实 现在 不 玩 game 了。 然后 robotics 他们 也 deprecate, 但是 至少 说 他们 有 这个 culture。 是 让 大家 尝试 不同 的 方向。 Identity 一个 可能 普遍 视为 正确 的 方向 之后, 即使 有 外界 很多 的 这种 反对 的 声音, 他们 也会 put effort into。 所以 我 觉得 这是我 对 在 欧阳 那段 经历, 我 觉得 给我 最大 的 lesson。

对, 好, 以 你 作为 旁观者 有什么 补充 吗? 你 也 算 见证 了。

那个 时候 我 就 讲 一个, 我 觉得 2015年 OpenAI 成立 的 时候, 他们 就是 想做 A G I。 但是 就像 jm 说 的, 怎么 个 做, 怎么 录, 其实 没人 知道。 但 我 当时 的 estimate 大概 就是 一个 达到 今天 或者说 是 ChatGPT 这个 moment, 我 估计 大概是 一个 2030年 的 事情。 但是 我我我 的 那个 观点, 我在 大概 2020年 的 时候 我 就 开始 改变 了。 因为 2020年 GPT3 出来 以后, 那个 emergence capability in context learning 都 是我 觉得 要 好几年 以后。 当然 我 并不知道 这个 income learning 是 怎么样, 但是 这么 大 的 一个 跳跃, 我 觉得 是我 没想到 的。

到 2020年 的 时候, 我 就 我 当时 会 想, 几年 之内 会 能够 出现 ChatGPT, 所以说 ChatGPT 出来 对我 个人 没有 surprise。 对我 最大 的 surprise 应该 是 GPT 先 出来, 然后 ChatGPT 出来。 我相信 是 让 google 的 不少 的 人 觉得 是 不管 是 surprise 也好, 或者说 是 郁闷 也好, 或者 怎么样 也好, 对 吧?

因为我 有一个 朋友, 他是 google 的 一个 高 管, 正好 在 欧洲 度假。 他说 12月3号 星期六 开 一个 会, 讲 怎么 去 对待 这个 chat G B 的。 因为 显然 这 是一个 很大 的 事情, 他 记得 很 清楚。 我 比较 好奇 对你 个人, 你看 了 ChatGPT 这么 一个 你 个人 是 什么 想法?

当时 对 量变 引起 质变 这件 事情 有了 更深 的 理解。 因为我 知道 它 可能 就是 maybe 更大 的 模型 以及 更多 的 训练。 是对, 然后 可能 fundamentally 还是 transformer, 还是 那些, 还是 这样 一个 aggressive model。 就是我 自己 试 了 几下, 然后 就 觉得 真的 是一个 非常 让人 惊讶 的 一个 东西。 如果 把 lambda 给 release to the public, 我 觉得 大家 可能 会对 后来 的 像 G V T 可能 没有 那么 惊讶, 毕竟 有一个 心理准备 了。 台阶 以及 如果你 开始 真的 能够 release good 拉姆达 这些 to the public 的话, 那你 至少 能 收获 一大 波 数据。

量变 引起 质变, 这 一个 有 更深 的 认识。 另外一个 你是 觉得 这个 还是 有 一些 配置 对 吧? 就是 没有, 至少 是 能够 有一个 跟 他 差 没 那么 太大 的 一个 model, 先 让 大家 先 试一下。

对, 可能 只是 按 当时 那个 时间点 来说, 可能 当时 lamda 可能 确实 不一定 有 chat V T 那样 quality。 但是 毕竟 两个 模型 对 最近 都 引爆 了 很多, 也 一直 在 进步。 包括 ChatGPT 本身 也 不是 去年 的 那个 ChatGPT 了, 对 这个 迭代 的 速度 是 非常 的 impressed。

所以 这 是你的 想法。 Jim 你 我 觉得。

当时 就是 open a 几个 早期 的 项目 里面, 其实 可以 看到 open A A 他们 今天 很多 决策 和 今天 他们 成就 了 很多 影子, 举 个 例子, 比如说 当时 就是 他们 在 red 上 训练 的 chatbot? G P0 后来 就 那个 skill up 变成 了 今天 的 这些 GPT。 然后 还有 当时 做 这个 游戏 这 一块, 其实 就是 一个 强化 学习 的 一个 他们 内部 一个 强化 学习 有一个 很强 的 infrastructure。 然后 他们 算法 上面 也 做了, 强化 学习 上 也有 很多 探索, 然后 后面 就 直接 变成 了 2OHF, 之后 chat B T 要 跟 那个人 做 alignment 的 时候 去 强化 学习。 也就是 我 觉得 从 当时 的 影子 过来 的, 然后 还有 包括 当时 open universe 就是 A I 用 这个 软件, 这个 其实 就是 今天 的 chat V T 的 up store plugging, 我 觉得 其实 就 类似 有 当时 这样的 一个 灵感 在。

然后 第二个我 一直 是 关注, 就 从 16年 开始 一直 在 关注 follow over net, 基本上 每 一篇 论文 我 都会 读。 对, 然后 我 觉得 跟 浩 月 老师 一样, 就是我 当时 最大 的 震撼 是 GPT3, 第二 大 的 震撼 其实 是 科比 和 达利。 对, 这个 像 科比 和 达利 大家 说 的 不多, 但是 我 觉得 GPT3 科普 和 达利, 我 觉得 他们是 开创 了 一个 新纪元, 是一个 新的 一个 思维 模式, 一个 新的 范式。 就是 第一 scare up, 第二 open world 对 吧? Skill up 就 堆 更多 的 算 力, open world.

就是 我们 把 整个 互联网 数据 全都 能 全都 把 它 下载 下来, 然后 作为 我们 训练 的 这个 数据集。 但 其实 当时 这 两件 事情 现在 听 上去 好像 很 理所应当, 但 那个 时候 一点 都不 obvious。 因为 那时候 学术 圈 里面 的 想法 是 这样的, 是我 有一个 固定 的 一个 训练 集, 一个 固定 的 测试 集, 大家 所有人 在 上面 benchmark。 比如说 A H R net, a mac I net, 就是 一个 有 120万张 图片 的 一个 数据集。 然后 当时 所有 做 计算 视觉 的 人都 是在 M H net 上 训练 完, 然后 M A C N net 还有 那么 几十万 张 的这 图片 做 个 测试, 汇报 一个 数字。

然后 如果你 不 这样 做, 学术 圈里 评审 人 会 喷 你, 因为你 这个 东西 跟 别人 不能 比较。 所以 其实 当时 学术 圈 里面 根本 没有 这 样子 一个 open world。 要在 英特网 上, 互联网 上 把 所有 这个 数据 就 一起 下来, 下载 下来 做 训练 的这 样子 一个 思维 模式, 学术 圈 是 完全 没有 的。 然后 更加 不要 谈 这个 算 力 的 事, 学术 圈 根本 就 没有 这个 资源。 然后 我 觉得 就是 贫穷 限制 了 想象, 选秀 圈 里面 没 几张 卡, 真的 那 怎么办?

未来 我们 想 未来 这 不是 更 贫穷 了 吗?

但是 我 觉得 欧亚 打开 了 我们 想象力。 欧 佩兰 现在 就 至少 告诉 大家, 当你 有 当年 他们 有 一两千 张卡 的 时候, 你 能 做什么。 他们 一旦 告诉 了 大家 以后, 现在 大家 全都 跟风 就 过去了。 但 那时候 真的 是 限制 了 想象力。

然后 我 觉得 那个 GPT3 就是 在 文本 上 的 scale up open world。 然后 clip 跟 大家 介绍 一下, 它是 一个 图片 和 文本 的 一个 对齐 的 模型。 我 觉得 当时 对于 计算机视觉 就是 一个 巨大 的 震撼。 当时 clip 他 那 篇文章 应该 没有 投 任何 的 会议, 但 我 觉得 要 投 的话, 就是 务必 是 当年 CVPR 的 最佳 论文, 务必 的那 那年 CVPR 我 觉得 都 没有 任何 别的 论文 值得 读。 就是 那天 club 就是 一个 地震 级 的 一个 东西, 海啸 级 的。

然后 还有 就是 大力, 然后 大力 的话 其实 从 纹身 图 这个 领域 已经 做了 十几年 了。 从 deep learning 前 就 开始 做 deep plain 之后 的话 也有 很多 纹身 图 的 工作。 其实 就是我 在 斯坦福 的 这个 组 里面 也有 很多 学长 under capacity 什么的。 他们 自己 之前 也 做 过 这种 图层 文, 但是 没有 通过 这种 一个 简单 的 算法, 然后 靠 算 力, 靠 这种 大量 的 open world 的 数据, 他们 就 没有 走 这条路。 然后 他们 就 做了 很多 engineering 什么的, 但 这样 这个 pipeline 就 非常 的 复杂。 但是 大理 是一个 很 简单 的 算法, 一个 很 简洁 的 算法, 但是 他 把 它 give up。 所以 我 觉得 那个 是在 算法 上, 从 这个 思维 模式 上 一个 巨大 的 震撼。

然后 我 看到 chat B T 我 觉得 是一个 小 震撼。 比起 前面 那个, 因为我 觉得 chat B T 是一个 工程 上 的 一个 奇迹。 就是 他们 把 那么 多 标注, 就 整个 标注 的, 然后 还有 更多 的 数据, 还有 这个 R Y try f 是 怎么 调 参 的 等等 这些 事情 他们 都 做 的 都 特别的 好。 包括 最后 deploy ChatGPT 就是 一 上来 就 什么 前 五天 里面 就有 100万用户, 那就 意味着 他们 后 端的 这个 工程 做得 非常 好, 就有 多少 APP 能够 做到 这样 一个 skillings。 下面 还没有 大规模, 就是 像 卡机。 对, 就 至少 从 欧 盘 作为 一个 公司 来说, 就 工程 能力 非常 的 强对, 但 其实我 觉得 从 算法 上面, G P3是 一个 更大 的 震撼。 然后 当然 后面 G P4 也 肯定 是个 震撼, 就说 他的 这个 能力, 写 代码 能力 也就 远 强于 GP3.5。 对。

然后 之后 的话 听众 肯定 就 比较 熟悉 了。 但 我 觉得 当年 那个 时候, 在 大家 没有 讨论 大 语言 模型 的 时候, 那 几件 事情 其实我 觉得 在 学术 圈 里面 震撼 是 非常 大 的。 G B 3发生 的 时候, 我 大概是 斯坦福 应该 是 第三年 博士。 然后 那个 时候 L P 的 组 他们 就 召开 了 一个 紧急会议, 有点像 刚才 韩军 说 的 谷歌 的 紧急会议。 我 觉得 N O P 组 也是 有一个 紧急会议, 他们 就在 讨论, 就 觉得 N O P L 完蛋了, 就 觉得 在 学校 里面 做 N O P 已经 没有 什么 值得 做 的 了。

所以 后来 为什么 斯坦福 发 了 一篇 文章 名叫 foundation model? 因为 那时候 斯坦福 已经 感到 了 巨大 的 压力。 就是 一旦 我们 这些 N O P 的 这些 教授, 几十年 的 过去, 这些 什么 语言学, 什么 这些 经验 他 都要 过时 了。 然后 如果我们 不 跟着 时代 的 脚步 的话, 就要 被 时代 淘汰。 所以 其实 斯坦福 提出了 foundation model 这个 名字。

然后 现在 搞 了 一个 foundation model 的 center, 包括 最后 pursue 等等。 斯坦福 的 教授 做了 奥帕 卡 什么 等等 的。 其实 他们 当时 也是 有一个 巨大 的 一个 转变, 对 他们 这些 资深 的 教授 来说 也是 一个 很大 的 冲击。 更 别提 我们 当时 这些 片区 的 学生。

斯坦福 其实 这件 事情 做 的 非常 前列 了。 也就是 最近 开始 最近 一年, 我 觉得 很多 的 顶尖 的 大学 开始 重新 在 思考, 前两天 我 跟 一个 朋友 在 聊, 他 知道 的 一所 大学 是 他说 2024年 毕业 的 那个 论文 就让 他们 就 写 完。 2024年 以后 毕业 的 要 重新 reset 他的 论文 方向, 就是 也许 你 写 的 东西 根本 就 没有 任何 价值。 我 觉得 斯坦福 能够 在 2020年 就 开始 思考 这件 事, 已经 走 在 蛮 前面 了。

对, 刚才 你们 两位 share 的 就是 ChatGPT moment 的 想法。 从 我的 角度 来讲, 他的 model 的 performance 性能 上 来讲, 我没有 觉得 惊讶。 但是 那么 多人 开始 用, 这 就让 我 看到 A P I 跟 U I 的 区别。 因为 3.0 出来 的 时候, 或者说 GPT3 出来 的 时候, 它 只是 A P I 这 A P I 只是 码农 对 吧? 能够 用, 但是 真正 出圈 还是 需要 有一个 漂亮 的 U I, 当然 不 只是 一个 U I 就像 jm 刚才 说的是 这个 infrastructure 基础 建设 要 做 的 比较 scalable, 这 是我的 第一 反应。

第二 反应, 其实我 当 时候 跟 绝大多数 人的 想法 不是 很 一样的。 因为 我不知道 Monica 或者 记得吗? 当 时候 大多数 人都 说, google 要 完蛋了, 对 吧? 那个 社区 要 完蛋了。 我 觉得 社区 完蛋 这件 事情 还很 漫长, 也有 可能 以后 也会 完蛋, 但是 我 觉得 这是 很 漫长 的 一件 事情。

最大 的 震撼 我 觉得 是一个 云计算 会 分 到 metal 来 改变。 以前 的 云计算 主要是 storage computing, 现在 以后 更多 的 是一个 A I native 的 这些 A P I。 我们 刚才 说 的 SARS 会 建筑 在 新的 A I native 的 python 上面, 前面 大概 一个月。 我的 这个 想法 可能 是 属于 非非 共识 的, 但是 我 觉得 最 近几个月 应该 已经 算是 属于 比较 共识 了。 你说 要 去 颠覆 google, 也许 可能 对 吧? 但是 这个 搜索 这 是一个 很 漫长 的 一件 事情, 但是 其他 的 那些 些 B2B sof a肯定会 在今 后 的 两年 三 年会 写会 非 常 不 一样。

你们 觉得 大家 经常 说 做 L M 的 一些 挑战, 你 觉得 最 被 大家 高估 的 和 最 被 大家 低估 的 做大 语言 模型 的 挑战 是什么?

这个 难度 上 来说 是 其实 它是 一个 真的 是一个 botnet。 包括 我 一开始 说到 auto GPT 这件 事情 和 包括 在 企业 用户 中用 的。 然后 其实 可能 大家 觉得 一些 很多 花式 prompting, 或者 是 multiple 调用 这个 language model 让 他 去 完成 一个 task 这件 事情, 但 觉得 可能 就 解决 了。 但是 其实 在 真的 企业 用 应用 场景 中 很难 去 接受 你 一个 response, 我也 需要 调用 十次 或者 20次。 Language model 可能 等 个 一分钟 才能 回复 这件 事情, 这件 事情 可能 是 现在 很多 包括 做 prompt engineer 这些 research 方面 以及 和 真正 应用 上面 会 一个 misspent, 或者 是一个 被 低估 的 一个 问题。

这个 我 就 来 讲讲 低估 的 东西。 我 觉得 一个 是我 感觉 业界 还是 有点 低估 了, 就 机器人 的 难度。 我 其实 这次 去 S M O 的 时候, 感觉 就是 很多 可能 不再 直接 做 机器人 域 的 研究 的 同学们, 都 是在 问, 这个 机器人 感觉 应该 很快 了, 现在 东欧 它 也有 了, 然后 谷歌 那边 还有 2T12T2 那些 模型, 感觉 是不是 这个 机器人 会 特别 快了。 而且 伊朗 max 一直 在 喊 那个 tesla bot 什么的, 有些 炫酷 的 一些 demo。 然后 现在 包括 有 一些 创业 公司, 初创 公司, 比如 figure, one x 什么, 也都 是 打着 通用 机器人 的 旗号。

但是 我 觉得 还是 这个 事情 难度 我 觉得 是 被 低估 了。 因为我 觉得 机器人 第一 有一个 硬件, 就 不仅 是 算法, 还有 硬件 的 问题, 还有 产能 的 问题, 一系列 的 问题 了。 然后 算法 这边 就是 刚 提到 的 这个 数据 不够, 然后 可能 我们 现在 就 连 这个 输入 处理 的 都 不是 很好, 更加 不要说 它 输出 那 一块, 输出 肯定 比 输入 更难 一些。 因为 输出 就是 控制 这个 机器人 的 身体, 比 输入 更难。 但 现在 输入 也没有 解决, 就是 刚才 提到 的, 尽管 我们 现在 解决 了 语言, 不 代表 我们的 这个 视觉 系统 就 能够 在短期内 能够 超过 狗和猫 和 大猩猩。 我 觉得 这 两件 事情 是 脱钩 的。 然后 哪怕 解决 了 这个世界, 也不 代表 我们 就 能够 有 大猩猩 或者 最后 是 到 人的 这 样子 一个 肢体 的 灵活度, 这 是一个。 第二个 被 低估 的 是, 如果现在 要 做 一个 foundation model 的 公司, 或者说 是 大公司 想做 function model, 自己 来 创 一个 新的 一个 东西。

我 觉得 可能 组织 能力 说不定 比 这个 技术 要 更难 一些。 因为我 觉得 刚才 今天 podcast 也 提到 了, 有 大量 的 算 力 需要 资本 的 运转, 然后 还有 包括 需要 落地, 就是说 这个 东西 怎么 去 justify 花 那么 多 钱, 然后 如果 不 落地, 所以 还要 需要 同时 要 想 好 这个 商业 的 计划, 还有 就是 要 吸引 大量 的 人才。 怎么样 就 是从 可能 那些 最好的 那些 地方, 挖 到 足够 好的 人, 还有 就是 推动 他 整个 这个 agenda。 所以 我 觉得 组织 能力 可能 在 这个 大 语言 模型 的 这个 时代 里面 非常 的 重要。 因为我 觉得 曾经 要 做 一些 A I 的 突破 什么的, 就 几个 P H D, 然后 大家 就是 那个 三个月 哈克 桑, 然后 我 觉得 就 能够 做出 一个 新的 文章, 一个 新的 突破。 现在 我 觉得 类似 这种 越来越 难 了, 可能 fine tuning 还 可以, 但是 我 觉得 一些 本质 上 一些 大 的 一些 突破, 需要 一个 很强 的 一个 领导力, 一个 领导者 来 把 这 所有的 这些 资源 什么的 都 放在 一起。 这 是一个 巨大 的 拼图, 就 不再 只是 一个 算法。 但是 要 拼图 的 每 一块 都 要在一起, 让 它 才能 整个 齿轮 才能 运转。

我 觉得 低估 的 可能 还有 一个点 就是 evaluation, 就 包括 做 那个 chat P T moment, 我们 刚才 聊到 对 吧? 对, 不管 是 谷歌 还是 很多人都 是 非常 惊艳。 但 你 想 其实 有 那么 多 聪明 的 人, 不管 是在 google 还是 不在 google, 其实 都 已经 能够 非常 能够 做做 模型, 做 的 很 好了。 但 他们 以前 optimize 的。 那个 是 一些 benchmark 对 吧? 就是 那个 academic 的 benchmark 或 怎么样。 所以说 它的 evaluation, 它的 measured 是 走了 相当于 是 走了 另外 一条路 对 吧? 你 从 今天 的 角度 来讲 是一个 错的 路, 但 当 时候 就是 所有的 人都 在 走 的 路, 这是 measurement。

今天 如果 是从 工业界 来讲, 你 怎么 去 measure 你的 copilot 是 算是 好的, 算是 成功 的。 怎么 去 automate 这些 evaluation, automate 这些 measured 的 我 觉得 都是 蛮 大 的 挑战。 我我我 大概 两个 月1两个 月前 写 了 一篇 很短 的 文章, 因为 大家 都在 写什么 whatever is all you 你的 right, 我 就 写 了 一篇。 我说 但是 我 觉得 最终 是 measured 的 时候 有 你的。 如果你 能够 measure 好了, 一旦 这个 方向 对了, 然后 慢慢的 就会 做 我们 前面 提到 的 那个 next token prediction, 变成 A G I 这个 方向 对 吧? 那 也就是 一个 把 loss function, 把 一个 objective function, 把 一个 目标 函数 给 做好 了, 接下去 慢慢的 做吧, 但是 一开始 没人 相信 这个 目标 函数 是 可以 potentially 达到 A G I 的对, 所以说 我 觉得 这件 事情 是 属于 我 觉得 有点 低估。 另外一个 我 觉得 这 跟 evaluation 有关。 人 喜欢 去 evaluate 说 这个 hello, 人们 从来没 自己 去 evaluate 自己 hello.

也许 我们 今天 说 的 都是 Alice。

就是说 有 不管 有的 时候 是 有 agent 在 后面, 有的 时候 是因为 自己的 贫穷 限制 想象, 对 吧? 有的 时候 因为 各种各样 的 原因, 用 另外一个 角度 去 看 halogenated, 其实 还是 蛮 多 的。 所以说 我 觉得 光是 去 judge 这个 model 说 你 这个 halloween 有的 时候 不是 很 公平。 我 觉得 对我 觉得 有 一个点, 我 前面 提到 的 G P U 算 力, 长期 来讲 我不 觉得 算 力 是一个 bottle neck。 因为 就像 我 前面 说 的, 任何 一个 东西 只要 有 mass production, 价格 就会 无限 下降。

我 另外一个 问题是 说, 你 觉得 大运 模型 或者 人工智能 在 未来 一年 和 未来 十年, 你 觉得 最 让 你 期待 的 事情 是什么?

我 觉得 未来 一年 的话, 就 刚才 提到 的 一些 coding 的 模型, 我 觉得 肯定 会越来越 强。 可能 1到3年, 我 觉得 就是 有 一些 最 基本 的 一些 软件工程, 还有 包括 地方 什么的。 我 觉得 G P5 或者 可能 之后 出 gina 什么的, 很多 这 一块 都 能被 自动化。

然后 还有 就是 1到3年 的话, 会有 一些 多 模态 的 模型 出来, 估计 还没有 完全 解决 这些 问题。 就 刚刚 提到 的 这个 真的 要 达到 这个 动物 一直 到 人的 视觉 这个 系统, 我 觉得 可能 1到3年 都 有点 勉强。 但是 至少 这些 多 模态 模型 会 出来。 目前为止 翻 tier 模型 里面 还没有 一个 是 大家 真的 能 用上 多 模态 的。 但 这个 的话 肯定 就是 未来 1到3年 会有 一些 开放 的 A P I。 对, G P5 可能 不仅 是 能够 处理图片, 可能 还能 生成 图片, 这 具体 我 就 不知道 了。 但是 我 觉得 就 这些 A P I 会 慢慢的 开放, 这是 未来 1到3 一定 会 发生 的 事儿。

然后 可能 还要 落地 上面 的话 也会 有 更多 的。 我们 看到 比如说 企业 什么的, 就 等会 这个 哈维 老师 肯定 就会 更有 经验, 但是 我 觉得 就是 落地 会 更多。 然后 拉马 二 出来, 可能 lama 3还会 出来 coding, 说不定 也很 强。 然后 对于 一些 企业 的 他 自己的 这个 damon 里面 的 一些 能力, 我 觉得 也会 增强 很多。

尽管 它 不是 一个 frontier 模型, 但 它 也 不需要 一个 frontier 模型, 我 觉得 未来 十年 这个 事儿 就 非常 难说 了, 我 就 那么 说吧, 现在 是 2023年, 然后 我自己 就是 进 A I 是 2012年 的 时候, 然后 一二年 的 时候, 那时候 我 还是 本科生。 然后 一二年 是 深度 学习 元年, 一二年 刚 有 alexa t 出来。 然后 那个 时候 我看 阿 莱斯特 就 对 神经网络 特别的 感兴趣。 对, 然后 一二年 那个 阿 莱斯纳 T 其实 是 相比 于 今天 是一个 非常 弱 的 一个 模型。 但是 这 过去 十年 这个 变化, 我 觉得 简直 是我 不敢 想象 的。

如果你 问 一二年, 当时 我 就说 你 十年 以后 大概 会 怎么样, 对 吧? 我 可能 说 十年 以后, 我们 估计 在 M C N 上面 的 这个 准确率 能 再 上 个 十个 点就 还是 贫穷 限制 的 想象。 那个 时候 觉得 看到 这个 A I 这 圈 资源, 包括 资源 那时候 其实 也没有 那么 的 多。 所以 我 觉得 那 一块 至少 一二年 的 时候 是 很难 预测 十年 以后 的。

所以 我 觉得 现在 也 同样 让让 我 想象 未来 十年 的话。 首先 我 觉得 10年到15年 我们会 看到 机器人。 大家 可以 打 个 赌, 我们 十年 以后, 我们 四个 再 回来 再做 一个 podcast, 看 十年 前 我们 当时 讲 的 对不对。 我 觉得 10到15年 的话, 会有 机器人 的 落地, 通用 机器人 算法 的 实现, 以及 可能 一个 很强 的 一些 机器人 的 那些 硬件 的 出现。 因为 现在 我 觉得 很多 白领 的 一些 工作, 其实 已经 一点一点 的 可以 至少 被 半自动化, 甚至 全 自动化 在 未来 3到5年。 但是 其实 就是 物理 世界 里面 的, 比如说 做饭、 做 家务 所有 这些 事情, 工厂 里面 一些 体力活, 其实 现在 还是 需要 人力, 因为 这个 事情 对于 机器人 来说 太难 了。

但 如果 未来 10到15年 有 通用 机器人 出现, 比如说 就 像你 训练 一个人 的 工人 一样, 你 告诉他 这个 零件 要 这样 装, 或者 我家 里面 这些 餐具 的 摆放 是要 那么 放。 你 就 给他 一个 prompt, 你 就 prom 他 一次, 然后 包括 我 这个 饭 我就喜欢 那么 做, 我 口味 就是这样。 你 给他 一个 这样 一个多 模态 的 一个 prompt, 然后 这 机器人 就 立马 能够 学会 这个 技能。 并且 每家每户 里面 这个 机器人 用 的 方法 还 不一样。 其实 我们 就可以 想象 一下, 现在 ChatGPT 就是 每家每户 prompt 的 不一样, 每个 公司 也 用 的 就 能够 用 出 各种各样 的 花样。 然后 如果 这个 机器人 的 通用 模型 也 能够 用 总 pro 的 方式 玩出 各种 花样 的话, 我 觉得 这个 就是 人类文明 的 一 巨大 的 进步。 对, 也是 一个 绝对 是 工业革命 级别 的 一个 东西。

然后 第二个 我想说 的 就是我 觉得 未来 10到15年 的 时候, 比如说 纯 语言 模型, 这种 推理 的 模型 可能 已经 超越 人的 智能 了。 然后 我的 意思 就是 他 可能 比如说 是 爱因斯坦 级别 的 智商, 就 可能 现在 就是 大家, 那个 普通人 的 智商 可能 像 GPT4 都 没有 完全 达到。 但 我 觉得 10到15年 的 时候, 他 可能 是 人类 顶级 科学家 的 智商。 然后 他 能够 推理, 能够 看到 数据 里面 的 一些 这种 hidden 的 pattern。 其实 我们 想 一下, 科学家、 艺术家 大概 就是 这种 创作 这个 过程 是一个 什么样 的 过程? 其实 也是 基于 前人 有 很多 灵感, 然后 把 这 灵感 串 起来, 发现 他的 这个 second order 或者 更高 这个 order 之间 的 这种 联系。 然后 把 这个 东西 融合 在一起, 再 加点 自己 新的 东西, 这就是 其实 人的 创新 的 过程。

现在 gbt 4还做 不太 到, 但 我 觉得 十年 以后 务必 能够 做到。 这样的话 意味着 什么? 意味着 A I for science 这 一块 也会 有一个 很大 的 一个 突破。 就是 人类 的 科学家 可能 会 和 GPT 科学家 一起 合作, 来 研发 一些 下一代 的 一些 科技。 所以 那个 时候 我 觉得 可能 比如说 什么 室温 超导, 什么 核聚变 这些 事情, 可能 是 我们 跟着 A I 科学家 一起 发现 的。 因为 他们 不像 人的 这个 P H D 学生, 我们 不能 24期一直 在 里面 工作。 但是 A R 他 也不 觉得 累, 他 永远 都 不会 喊 累。 然后 他 就 247, 而且 他 能够 可能 一天 就读 一万 篇 论文。 然后 没有 人类 能够 做到, 他 甚至 能够 去 自己 去做 实验, 去做 分析。

就 假设 机器人 已经 有 的话, 那就 不需要 人 去做 那些 比如说 生物 的 实验。 一个 GPT 的 一个 科学家 的 大脑, 它 可以 去 控制 一个 机器人, 去 帮 他 做 一些 生物 的 实验, 一些 化学 的 实验。 然后 这样的话, 现在 LK99 就 不是 靠 人 来 炼金术 一点点 练 出来 了。 是 可能 1000个机器人 在 里面 没日没夜 的 练 agent, 没日没夜 的 去 练 这个 材料, 然后 反馈 给 这个 A I 的 大脑, 然后 A I 大脑 再 告诉你, 根据 今天 的 实验 结果, 明天 的 实验 应该 怎么做。 我们 就可以 大规模 scale up 科研 的 进展。 然后 大家 可以 想象 这件 事情, 我 觉得 是 非常 又 激动人心 又 恐怖 的。 因为 其实 就是 这种 物理 世界 上面 这些 规律, 材料科学 这种 科技 上 的 发展 也能 靠 A I 来 加速。

对, 而且 他们 到时候 就 不需要 写 论文 了, 有什么 发现 直接 在 agent 之间 share your knowledge 就可以 了。 对。

然后 最后 跟 我们 汇报 一下 就行了, 就说 我们 今天 又 发现 了 一个 新的 发明。

我 本来 是 想 这个 问题 最后 问 的, 但是 因为你 讲到 这一点, 我 就 顺便 问 一下, 我不知道 这 是不是 你 最后一个 问题。 从 这个 角度 上 来讲, 你 觉得 不管 是你 或者 你 周围 的 人, 或者说 我们的 下一代 应该 怎么 prepare for 这种 时代 的 到来? 因为我 个人 是 非常 同意 你的 一个 十年的 assessment, 就像 你说的 非常 令人激动, 但是 又是 可能 是 令人 恐惧。 不管 你喜欢 不 喜欢我 觉得 这个 时代 会 到来。 在 这种 前提 下面, 不管 是你 个人 还是 你的 你 你 对 你的朋友, 你 对 今天 正在 读大学 的, 或者 甚至于 下一代, 他们 怎么 去 学学习, 他们 怎么 去 准备 这个 时代。

你是 怎么 想 的这 是一个 很 好的 问题。 对我 觉得 就是现在 可能 最前沿 的 这些 A I 什么 科技 什么, 还有 包括 做 研究 什么的, 我 觉得 这些 目前为止 还是 要人 来 驱动 的。 我 觉得 现在 GPT 只是 一个 工具。 当然 我 这个 回答 肯定 非常 biased。 就是我 觉得 可能 现在 就是 做 一些 科研, 就是 静下心来, 然后 学习 一下 现在 最新 的 这个 东西, 然后 就是 keep 一个 open mind。 比如说 有些 新的 技术 过来, 然后 就 立马 就 能够 很快 的 能够 学习, 能够 很快 的 抛弃 可能 曾经 的 一些 旧 的 思维 模式。 然后 迅速 的 适应 一种 新的 思维 模式。 我 觉得 这个 可能 是 大家 都 需要 有一个 能力。

其实我 觉得 对我来说, 我自己 也 在 不断 培养 自己 的真 能力。 每天 开 打开 推特 就 觉得 又 有些 新的 想法, 新的 这些 东西 可能 跟 我 两 三月 前 做 的 做 研究 时候 的 一些 思维 模式 都 已经 有 一些 不太 一样的 地方 了。 所以 我 现在 就是 逼 着 自己 每天 就 接受 这些 新的 思想, 尽管 有些 时候 就 觉得 跟上 这个 脚步, 就是 不断 的 跟上 这样 一个 科技 的 脚步, 其实 还 挺 累 的。 但 我 觉得 这个 是一个 有 必要 的 一个 这种 mental.

我 能不能 chAllenge 一下? 我 觉得 这个 好像 还 不够 颠覆。 对 我们我们 就说 假设 你 现在 是 读大学 一年级, 你 觉得 你 会 做 什么样 的 事情? 因为 今后 十年的 发展 你 会 很 不一样。 比如说 你 仍然 会 按部就班 的 学 这些 课程, 然后 找 份 工作 对 吧? 或者 读 P H D, 还是 说 你 会有 有 哪 这些 想法, 你 会 觉得 你 会 想要 颠覆 自己的 学习 或者说 工作 的 历程 的 吗?

我我我 是 觉得 这种 critical thinking 这样的 一个 技能, 它 也 不是 跟着 现在 这个 科技 改变 而 改变 的。 我 觉得 每个 人都 需要 有的 thinking。 其实我 觉得 甚至 如果我们 不 谈 A R 只是 谈 教育 的话, 很多人 就说 大学 无用论, 对 吧? 你说 大学 里面 学 的 什么 这种 物理, 微积分 什么的。 如果 之后 比如说 出来 就是你 当 的 是一个 basis manager, 为什么 要 懂 微积分 呢? 我 觉得 其实 一样的 这个 道理 就是 他 培养 一种 是 推理, 然后 一种 就是 那种 思维 模式, critical thinking 的 模式。

其实 有 有点像 我 觉得 有点像 GPT 的 训练, 对 吧。 然后 我们 还 发现 如果 GPT 训练 在写 代码 的 数据 上面, 它 推理 能力 会 更强。 尽管 你 最后 用 GPT 做 的 事情 并不 擅长 写 代码。 所以 我 觉得 同样 的, 我 觉得 对于 人 来说, 其实 我们 就是 在 pretend 这些 就是说 思维 模式, 不一定 是 我们 学 的 这个 化学 或者 物理 的 某 一个 某 一块 这个 知识 之后 就 一定 会 有用。 甚至 我 觉得 以后 问 GPT, GPT 知道 的 比 我们 更多, 都 不需要 去 问 专家。

但 我 觉得 这 一块 其实 培养 的 就像 大学教育 一样, 培养 这种 critical thinking, 培养 的 是一种 creativity。 就是 怎么样 去 思考 这些 问题, 对 怎么样 应对 change 也是 一种 ability。 而且 我 觉得 这个 东西 是 跟着 教育 的 越多, 然后 这样的 能力 其实 是 会 变得 越 强, 这是我 对 教育 的 理解。

然后 另外 一方面, 我 觉得 如果 10到15年 以后, 真的 是 像 我们 刚才 说 的 这样, 有一个 进入 一个 科幻 的 这样 一个 世界。 那 我 觉得 可能 绝大部分 人, 甚至 包括 A I 的 研究员 都会 失业, 对 吧? 因为 A R 他 能够 自己 研究 他 下一代 的 自己 了, 可能 就 并不需要 我们 有 多少 大 的 介入。

然后 我 觉得 那个 时候 是 社会 和 人类文明 本质 上 的 一些 变化。 那个 时候 比如说 工厂 里面 都是 机器人 的 那些 工人 在 里面 生产。 然后 所有的 餐厅 里面 机器人 在帮 我们 做饭, 还有 包括 可能 农业 收割 什么的, 都是 机器人 一条龙 服务, 那 我们 就 不需要 工作 了。 然后 那个 时候 我 觉得 可能 人类 社会 会 达到 一种 就是 尽管 大家 都 失业, 但是 大家 生活 很 富足。 然后 大家 就可以 pursue 他们 自己 想要 追求 的 东西, 就是 他们 真正 内心 喜欢 的 东西。 之前 那个 心理学家 muscle, 然后 他 有一个 金字塔, 人类 需求 的 金字塔, 金字塔 越越 往 下 越 趋近 于 生理 的 需求, 越 往 上 是 越 精神 的 需求。 然后 可能 最底层 就是 先 要 基本 的 温饱, 然后 在上 面对 吧? 就是 比如说 有 稳定 的 工作, 然后 再 上面 就是 赋予 了 这个 时候, 最最 上面 叫做 自我实现。

在 上面 是 写 做 波 克尔。

但是 这个 金字塔 顶端 就是 自我实现, 自我 价值 的 实现。 就 当你 这个 物质 的 生活 已经 完全 不用 去 愁, 也 不用 去 跟 别人 抢 资源 这个 时候, 最上层 就是 自我 价值。 然后 自我 价值 对 每个 人都 不一样。 可能 那个 时候 没 journey 对 吧? 已经 版本 20了, 然后 他 已经 能够 做 所有的 这个 人的 艺术 上 能够 做 的 事情 了。 然后 那个 时候 我们在 学画画, 就 不是 为了 靠 这个 为生, 而是 我 就是喜欢 这个 画画, 我 就是喜欢 用笔 在 纸 上 画 出 这些 我 心中 这个 图案 的 这个 desire。 对, 而 不是我 我要 靠 卖 画 为生。 然后 我 觉得 那个 时候 这个 社会 会 很 不一样。

我 非常 同意 这一点。 就是你 在 practice, 你 在 大学 里面 学 的 是 更多 的 是 practice about your thinking。 当然 我 觉得 很很 知识 这部分, 很多 fundamental 部分 可能 还 不会变。 像 华为 之前 也 提到 很多 computer science 里面 的 philosophy, 包括 一些 最 基本 的 一些 complexity 是 比如说 排序 算法, 它的 这 如果 基于 比较 的话, 理论 下界 的 复杂度 是 多少, 就 这些 或者 是 有 很多 像 停机问题, generally 它 不是 一个 decide able 的 问题。 就 这些 fundamental 的 东西 我 觉得 不会变。 以及 你 得知 可能 这些 知识 会 教教 你说 你的 帮助 在哪里。 或者 是 在在 现在 这个 体系 里面, 哪些 是 可能 做 的, 哪些 是 不可能 做 的。 以及 你 要 对 比如说 最 基本 的 算 力 或者 是 复杂度, 我 觉得 还是 需要 学习 的。

当然 另外 一方面 我 觉得 可能 做 个 类比, 就 像是 我 觉得 大学 也是 相当于 是一个 你 在 去做 prompt, 你 自己 做 future 能力 的 ability。 这个 prompt 的 本身 更 像是 你 会 看到 过去 的 经历。 有 方法 A 然后 后来 大家 对 这 三种 方法 B 你 可能 学 的 不是 方法 一 或者 方法 B 本身, 而是 这个 improvement 怎么做? 觉得 这个 量, 反正 我 觉得 fundamental 的 知识 以及 improvement 的 这种 critical thinking, 还是 得 再再 考虑 这回 考过来 的 事情。

你 也可以 回答 一下 刚才 那个 一年 和 十年的 问题。

对我 个人 觉得 短期 现在 我 觉得 language model 会 in level 这种 real time 的 一些 application, 比如说 像 这些 自动驾驶 的 一些 汽车, 他们 自己 每每 辆 汽车 自己 会有 一种 device 的 G P U 或者 这样, 就是 他他 不会 说 把 这个 service 跑到 云端, 他 为 的 也是 real time。 如果你 能 做到 real time 这件 事情, 他 会 unlock 很多 这种 新的 possibility。 包括 在 问答 情况下 或者 是 做 decision making 的 时候, 特别是 不 有些 时候 真的 是 time sensitive decision making。 就是我 我 觉得 real time 这件 事情 可能 在 1到3年 应该 会 能够 做到 一个 程度。 包括 算 力 或者 是 包括 模型 几 10比0或者 几百 变量 这种 规模 可能 已经 能够 做到 这样的 real time 的 事情。

然后 十年 那天 我也 回想 一下 我自己 十年 前 在在 做 啥, 以及 我 刚刚开始 读 P H 的 时候, 我们 当时 虽然 已经 有了 deep learning 这件 事情, 但是 我们 当时 做 topic, 我不知道 大家 有没有 听 过, 叫 coral methods, 这 可能 是 比较 classical 的 machine learning 的 一些 方法。 然后 我们 当时 在 做了 一个 topic, 是 怎么 让 colonel method 跑 的 比迪 普兰 丁 更好。 然后 是一个 相当于 是一个 against current 的 这样 一个 strategy。 虽然 有点 不甘心, 但是 确实 我的 P H 第一年 都在 做 一些 这样 事情, 然后 发现 确实 干 不过。 然后 十年 前 我 觉得 这 类比 下来, 放到 今天 的话, 我 觉得 你 现在 看 十年后 得 是一个 至少 是 ride the wave 或者 follow 的 这个 current 这样 一个 往往 前 布置 的 一个 事情。 对 然后 具体 的 形态 的话, 十年之后 可能 一开始 提到 一些 M V 像 personalized 的 这种 language mode, 以及 可以 personal individual。 如果 到时候 算 力 已经 这种 平民化 了, 这种 情况下 的话, 我 觉得 反倒 是 这个 customization 或者 是 individual 自己 也会 有一个 personed 这种 language model 这样的 一个 scenario。 肯定 也 不一定 是 language model 的那 时候 反正 某 一种 放在 是 model.

我 觉得 是 一年 之内 大家 其实 都 已经 看 得到, 对 吧? 会有 google, 会有 games model 对 吧? OpenAI 会有 GPT。 然后 任何 一个 公司, 包括 我自己 的 公司, 我们 会有 自己的 model 出来。 自己的 code 的, 自己的 systm 这些 A I base 的, 我 觉得 这些 都会 出来。 两三年 之内 我 觉得 大量 的 企业 软件 都会, 不能 算是 重新 写 一遍, 但是 会 大规模 的 被 重新 思考。

但 我 觉得 十年 这 十年 我 觉得 是一个 蛮蛮 大 的 一个 改变。 因为 十年 我 觉得 那个 时候 觉得 每个人, 每个 公司 都有 大量 的 agent, 大量 的 system, 大量 的 corporate。 就是我 做 很多 事情 不需要 跟 就是我 今天 所做 的 很多 事情, 不需要 跟人, 不需要 跟 salesforce, 不需要 跟 我 今天 打交道 的 那些 entity 或者 人 打交道, 我 都 只要 跟 agent 打交道。 到了 那个 时候 不 代表 我 就 没 事情 做了, 我相信 我 有 更多 的对 吧? 那个 马斯洛 的 那个 东西 到 当 时候 有当 时候 的 definition 的 不同 的 需求。 我 觉得 从技术上 来讲, 如果说 我们 A I 只是 做了 一些 让 我们 做 的 事情 更加 efficient。 比如说 salesforce, 今天我 需要 follow 一个 world floor, 但是 明天 十年 以后 这些 事情 auto made。 我 觉得 如果 只是 做到 这些 东西, 我 觉得 是一个 big failure of the A I 因为我 觉得 A I 这 只是 做了 一个 incremental 的 一个 efficiency 的 提高。

我 觉得 AI 如果说 十年 以后 真正 要 真的 起到 作用, 有 一部分 就像 jm 说 的, 就是说 他 要 对 跨 领域 要 做到 很大 的 一个。 今天 跨 领域 你 看做 mechanics, o robotics 超导 或者 不管 怎么样, 其实 都有 巨大 的 bottle neck。 它的 bottle neck 是因为 他的 人 不够? 然后 看 paper 的 速度 不够, 是 international 迭代 的 速度 不够。 我 觉得 要 用 A I 的 这个 不管 是 agent 也好, 或者 是 怎样 去去 使得 它的 迭代 速度 提高。

我 经常 跟 一些 企业 的 老板 说, 我说 你 要 想象, 假设 你 今天 有 几个 program, 你 觉得 再 大 的 一个 很大 的 公司 有可能 有 200个500个 program。 当然 google、 facebook, 也就是说 绝大多数 世界上 的 公司 有 几百个 program。 但 假设 你 有 1万个10万个 program, almost for free in your company, what are you going to do? right?

我 觉得 十年 以后, 你就是 在 这么 一个 状态, you have 要 去 改变 一些 很多 跨 领域 的、 跨学科 的 一些 非常 foundation 他们 进展 的 速度, 我相信 十年 能够 会 看到 很多 类似的 这些 的。 所以说 只是 我 订 饭 买东西 那个 recommendation 更好。 我 觉得 这个 太 那个 了, 太 浪费资源 了。 我 觉得 有没有 说老实话, 对我 不是 那么 一个 那么 重要 的。 但是 对 我们 人类 的 foundation 的 technology 提高, 我 觉得 是 十年 以后 我们会 看到, jm 刚才 说 的 这些 事情, 至少 是以 有板有眼, 能够 我 看到 能够 agent 去 帮助 这些, 我 觉得 是 能够 看到。

然后 另外一个 问题 我问 那个 建, 前面 提到 我说 对你 如果说 十年 前 你 会 怎么样? 我 这个 问题 其实 是我 非常 想 探索 在 探索, 但 我没有 一个 很 好的 答案。 今天 jm 他 给 了 他 一个 答案 是 我 首先 是 一个人 仍然 需要 一个 critical thinking, 但 我 觉得 这个 可能 还 不够, 觉得 可能 教育 上面 会有 比较 大 的 方 提高。 刚才 你 提到 那个 教育 本身 其实 就是 一个 retraining, 对 吧?

对, 但 我 今天 已经 有 很 好的, 我 这个 pretending 出来 的 model 是我 能够 pretend 出来 的, 十倍、 100倍甚至 1万倍。 好的 时候, 我 为什么 要 花 大量 的 时间 精力 去, 我 可能 要 做 的 事情 是 怎么 去 interact, 怎么 去 跟 这些 model 去去 交互, 但 然后 我自己 的 unique, 我自己 的 价值 在哪里, 我 能够 想到 的 一点 就是我 觉得 是 leadership, 就 有点像 今天 所有的 人, 不是 所有的 大多数 的 马工, 他 有可能 是 individual contribute。 我 觉得 应该 要 想象 的 就是我 每个 人都 那 份 工作 都 已经 没有了, 到 十年 以后, 你 有的 工作 就是 tech lead manager 或者 director, 甚至于 V P 的 工作。 那个 时候 是 有你 你 怎么 去做 那 份 工作, 怎么 去 劝 对 吧? 这 是一个 我 最近 在 思考, 我没有 一个 很 好的 答案。 我是 非常 不管 是 听众 还是 我 周围 的 朋友啊, 如果说 能够 分享 一些, 能够 贡献 一些, 大家 去 cross source 一些, 怎么 去 迎接 未来 十年, 我 觉得 是一个 很 好的 话题。

对我 觉得 A I 这个 话题 要 聊, 真的 是我 觉得 再聊 个 两三个 小时 都 聊 不够。 今天 我们 已经 聊 了 两个 多 三 差不多 3个小时 的 时间, 真的 是 非常 的 非常 的 尽兴。 最后 如果 还要 再加 一两句话 的话, 大家 还有什么 想要 跟 听众 说 的?

我 最后 有一个 问题 问卷, 当 亚马逊 的 创始人 是 follow 你的 twitter 的 时候, 你 心里 是在 想什么? 能不能 跟 我们 分享 一下?

他 当时 follow 我的 时候, 我还没 follow 他, 我在 说 我不知道 他 follow, 所以 还 挺 尴尬 的。 后来 赶紧 follow back。 对。

那 就是 有没有 给他 发 私信。

不 卡。

就 这么。

点对, 但 我 觉得 就是现在 确实 在 推特 上 什么的 有 很多 noise, 就是 感觉 有 很多 happy, 然后 还有 包括 杂七杂八 的 这些 信息 特别 多。 我希望 自己 为 这个 社区 做出 的 一个 贡献, 就是 能够 提高 一些 这种 signal noise 的 这个 ratio, 能够 给 大家 多 create 一些 比较 高质量 的, 比较 有 价值 的 一些 一些 内容。 有些 时候 我也 会提 一些 自己 对 一些 最新 工作 一些 看法, 当然 也 不一定 对, 但是 我 觉得 就 至少 能够 让 大家 可以 开始 一些 debate, 开始 一些 conversation 对。

我们 把 这个 jm 犯 的 这个 twitter 的 handle 放在 show note 里面。 如果你 还没有 关注 的话, 就 反省 一下, 然后 赶紧 去 关注。

连 首富 都在 关注, 你 还有什么 理由 不 关注? 对对对。

最后 大家 聊 一 聊, 就是 一两句话 做 一个 clothing 也 聊 一 聊, 以后 还 想要 再再 多 讨论 的话。

对我 觉得 so far 大家 也 看到 很多 学术界 工业界 在 兰 博士 摩托 上 的 一些 成果, 然后 也 大家 热情 非常 高涨。 但是 其实 很多 detail 的 问题, 就 包括 落地 的 时候 会 碰到 很多 detail 的 问题, 这些 我 还没有 其实 真的 大家 静下心来 去 解决。 所以 我 觉得 希望 这个 之后 也可以 更 关注 的 这些 更 底层 这些 包括 哪怕 只是 用 好一个 two 这样 一件 事情, 我 有 很多 的 话题 可以 聊, 觉得 怎么 去 把 它 真的 make useful。 这个 话题 我 觉得 特别 期待 之后 能够 在 deep dive。

好的, 下 一期 播客 已经 安排 上了。

对我 我 个人 是 很 相信 这个 技术 里面 的 这个 exponential growth, 就 这种 指数 级 的 增长。 如果我们 看 过去 的话, 刚刚 也 提到 alex net, 但 其实 在 alex 之前 就是 A I 已经 整个 领域 已经 做了 很久很久 了, 几十年。 其实 就 第一篇 那个 卷积 神经网络 就是 一个 阿 里斯坦 前身, 差不多 在 一九七几年 时候 做 的 叫 neo cot natron。 然后 那个 工作 能 做 的 就是 区分 一些 手写 的 数字, 比如说 12345 这样 区分 3和5, 然后 alex net 其实 就是 那个 升级版, 然后 区分 的 不是 数字, 是 狗和猫 和 飞机 对 吧? 不同 的 这些 类别。 然后 从 区分 3和5到区分 狗和猫 这 整个 领域 花了 33年 的 时间。 然后 从 区分 狗和猫 到 G B 死 花了 10年 的 时间。 所以 这个 我 觉得 是一个 很 直观 的 一个 技术 的 指数 增长 的这 样子 一个 案例。

所以 我 觉得 刚才 提到 未来 10到15年, 可能 刚才 讲 的 有点像 科幻。 但是 可能 到 那个 时候 我没有 觉得 也是 理所应当 的 这件 事情。 对 所以 我 对 未来 还是 充满 了 一个 很 乐观 的 一个 态度。 但是 我 觉得 未来 乐观 就 意味着 我们 今天 要 更加 的 努力。 所以 就是我 也就是 希望 所有的 听众, 你们 对 A I 感兴趣 的话, 也 一起 加入 这个 浪潮。 然后 现在 网上 有 很多 的 这种 教程、 资源, 还有 开源 的 代码。 我 觉得 学习 A I 最好的 方法 就 自己 动手, 亲自 去 用 一下 这个 模型, 亲自 去 感受一下。

我 觉得 jm 提到 的 就是 怎么 去 准备, 我 觉得 这 是一个 他 刚才 提 了 一个 方案, 但是 这 是一个 很大 的 未知数, 就是 到底 是 怎么 去 最佳。 如果说 十年 以后 回过 头 去 看我 觉得 我们会 觉得 今天 的 大学生 应该做 这件, 做 那 件。 有 一些 我们 今天 没看到 的, 这 是一个 我 觉得 我 非常 passionate 会 去 思考 的 一些 一些 问题。 刚才 杰米 也 提到 另外一个 signal to ratio。

非常 不幸 的 是我 觉得 今后 十年, 我 觉得 人类 看到 的 质量 更 低 的 信息 可能 是 那个 比率 可能 是 越来越大, 而 不是 越来越 小。 因为 有 大量 的 信息 是 机器 可以 生成, 对 吧? 今天 可能 人 生存 的 机器 生成 还能 比1比, 再 过 不久 其实 是 绝大多数 的 信息 都是 机器 生成 的。 所以说 趁 大家 还有 人类 生成 的 信息, 包括 我们 做 的这 期 播客 的 时候 要 多 听。 没有, 那是 开玩笑, 但是 确实 是 我 觉得 那 是一个 非常 重 要的就是你 怎么 决定 要 去 学习 什么样 的 东西, 然后 学习 什么样 的 技能, 在 今后 十年 是 非常 不 过去 几十年 已经 是一个 定, 就是说 大家 就 沿着 一条路, 反正 你 就 这条路 基本上 就可以 成功 或者 怎么样。 我 觉得 今后 十年 要 走 什么样 的 路, 其实 是一个 需要 大家 都 去 思考 的, 对 很多人 来讲, 这 其实 是一个 蛮 大 的 挑战。 但 对我 来讲, 或者说 我 一直 跟 周围 的 人 说, this is the to live, 非常 的 开心, live in this moment。 这是 人类 历史上 最好的 生活 的 时刻, 就是我 认 我 这么 认为 的。

华为 这个 总结 太好了。 我也 非常 有幸 在 这个 最好的 时刻 跟 几位 来进行 了 一次。 我 觉得 这是 最 美好的 很长 一段时间 内 最 尽兴 也是 最有 收获 的 一次 谈话。 然后 再次 感谢 几位 的 这个 时间, 在 加州 非常 一个 非常 lovely 的 一个 周末 的 上午, 花 那么 长时间 来 探讨 人工智能 这个 话题, 感谢 大家 的 时间。

谢谢。

好的, 我们 两期 节目 都播 诵 结束了。 如果你 是用 小宇宙 听 我们 科技 早知道 节目 的话, 可以在 评论 区 和 嘉宾 们 互动, 谢谢。

这 期 what nex 科技 早知道 就 到 这里 了。 听 完 之后 如果你 有 任何 的 想法, 欢迎 在 评论 区 里面 给 我们 留言, 我们 每 一条 都会 认真 的 看。 如果 你喜欢 我们的 节目, 请 记得 给 我们 五星 或者 好评, 分享 给 更多 的 朋友, 也会 对 我们 非常 有 帮助。 你 也可以 单独 写邮件 给我, 邮箱地址 是 听 T I N G 艾特 声 点 F M, 我 都会 一一 回复。 同时 公众 号 和 微博 也可以 搜索 生动活泼 声 是 声音 的 声, 节目 相关 的 更多 信息 会 在 公众 号 里 出现, 微博 和 公众 号 都 会有 不定期 的 福利 给 到 大家。

如果你 想要 跟 我们 更加 紧密 的 讨论 和 分享, 或者 是 想要 认识 和你一样 有 求知欲 的 新 朋友, 可以 加入 我们的 微信 群。 进入 听众 群 的 方法 是在 公众 号 文章 中 扫 码 添加, 或者 是 公众 号 后台 回复 科技 早知道, 即可 获取 邀请码。 期待 你的 加入, 我们 下期 见。