用 声音。
碰撞。
世界 生动活泼。
Hello, 大家好, 我是 丁丁, 欢迎 收听 全新 一期 科技 早知道。
科技 早知道 的 朋友们 你们好, 我是 硅谷 徐 老师。 如果 你们 想 了解 一下 2023年 人工智能 到底 到了 什么 水平, 那 一定要 听 一下 这 一期 和 on board 一起 做 的 节目, 通用 人工智能 的 火花。 GPT4 的 早期 实验 是 微软 最近 刷屏 的 报告。 这 篇 论文 的 作者 之一 张译 博士 在 节目 里谈 了 为什么? 他说 令人震惊 的 是 GPT4 解决 了 以前 认为 人工智能 不太可能 解决 的 问题。 另外 hugging GPT 作者 之一 谭 旭 博士, 某 知名 A I 厂商 研发 总监 洪 博士, 投资人 Monica 和我一起 讨论 了 GPT4 agent 多 模态 这 几个 话题, 聊 了 一下 如今 我们 离 通用 人工智能, 也就是 A G I 有多远。 希望 大家 听 了 这 期 节目 以后, 对 人工智能 大 模型 有一个 不一样的 认识。
大家好, 欢迎 大家 收听 omber 与 科技 早知道 合作 的这 一期 节目。 我是 主持人 Monica。 我 原来 在 亚马逊 云计算 负责 A I 产品 北美 市场 的 商业化, 现在 是 真格 基金 的 投资人, 也是 欧博 博客 的 主理 人。 今天我 跟 硅谷 徐 老师 邀请 到 几位 人工智能 领域 最 一线 的 研究者 从业者, 一起 聊聊 这 段时间 A I 领域 最新 的 进展, 深入探讨 技术 和 商业 应用 的 现状、 挑战 与 未来。 一开始 还是 请 几位 做 一个 自我介绍。
大家好, 对我 是 谭 旭, 来自 微软亚洲研究院。 我的 主要 研究 方向 是 关于 语言 模型 和 生成式 的 人工智能。 主要 面向 的 是 多 模态 的 一些 方向 的 生成, 比如说 语音 哪、 音乐, 以及 像 最近 关注 的 虚拟人 的 生成。 最近 也 在 看 基于 大 语言 模型 为基础, 通过 调动 各个 专家 模型 来完成 更 复杂 的 人工智能 的 任务。 把 它 作为 一种 通往 A G I 的 一种 路径。 这方面 的 研究。 好 张译。
大家好, 我是 张译, 现在 是在 微软 研究院 的, 总部 在 西雅图。 我 现在 是 senior researcher, 就是 高级 研究员。 然后 我 两年 前 从 普林斯顿 毕业, 导师 是 3G8 ora 我 以前 一直以来 的 方向 是 做 关于 用 数学 或者 是 理论 基础 来 解释 深度 学习 中的 一些 现象 或者 问题。 然后 用 这些 研究 的 结果 来 推动 用 深度 学习 来 开发新 的 模型。
现在 我们 整个 组 英文 叫 physical of A G I, 大概 通用 人工智能 的 物理。 但是 这个 物理 并不 代表 说 我们是 要 做 真的 物理, 而是 说 把 它 当做 一个 自然 存在。 就是 我们 现在 有 大 模型, 它 有 显露出 了 A C I 的 一些 特质。 然后 我们 要把 它 当做 一个 自然现象, 我们 来 先 制定 实验, 然后 搭建 理论 框架, 寻找 其中 的 规律。 我们 最后 能够 真正 的 迈向 人工智能。 通用 人工智能。 就是 我们 组 大部分 的 人的 背景 都是 做 这个 理论, 计算机 甚至 纯数学, 包括 我自己 深度 学习 的 背景 其实 非常 的 少。
很 不错, 非常 期待。 好的, 红 博士 大家好。
我 先 介绍 一下 我自己 之前 研究 领域 是 计算机视觉 和 数据压缩。 现在 我的 研究 兴趣 转向 了 A G I 通用 人工智能。
徐 老师。
谢谢 莫妮卡, 谢谢 大家, 今天 很高兴 能够 跟 这么 多 博士 一起 探讨。 我 个人 是 之前 一直 做 云计算, 做 操作系统 的。 然后 过去 八年 开始 做 A I 人工智能 方面 的 初创 公司 也好, 然后 最近 几年 也是 在 硅谷 的 公司 做 高 管 主管 A I 的 项目。
最近 在 业界 有 一篇 非常 有 影响力 的 论文, 就是 张译 所在 的 微软 的 这个 研究院, 发表 了 一篇 150 多页 的 一个 询问。 Sparks of artificial general intelligence A G I 通用 人工智能 的 火花, 其实 是对 GPT4 的 能力 做了 非常 深入 的 一个 研究。 我想 对于 很多 还没有 来得及 深入 去 读 这 篇文章 的 同学 或者 张译, 可以 给 我们 简单 的 介绍 一下 这个 研究 的 背景 是 怎样 的。
首先 这样 我可以 给 大家 介绍 一下 这个 研究 背景, 就是 微软 在 和和 OpenAI 在 这个 GPT4 的 合作 大概是 在 去年 的 大概 8月和 9月。 那个 时候 微软 内部 就 大概 有可能 少数人 100到200个 人 参加 这个 绝密 的 项目。 首先 拿到 了 这个 GPT4 那个 版本 的 模型, 就是 比 现在 的 这个 public 外面 大家 现在 都 可以 拿 得到 的 那个 GPT4 还要 更 强强 非常 多。 然后 我们的 paper 是 基于 那一个 模型, 就有 很多 可能 大家 看 读 paper, 然后 觉得 这个 例子 有用 用 或者 好玩, 然后 自己 去 试 过 之后 发现 没有然后 它 现在 这个 模型 它 没有, 它 显示 不 出来 这个 例子 这个 功能 的话, 对 这个 其实 是 非常 正常 的 一件 事情。 刚才 我说 了, 就是 我们我们 组 大部分 都是 数学家。 然后 大家 可能 之前 也 看过 GPT3, 然后 微软 内部 有 GPT3.5, 就是 后来 的 ChatGPT 我们 都都 看过。
当时 我们 自己 没有 对 觉得 这个 模型 特别 厉害, 这个 GPT4对 吧? 他说 的话 确实 比 GBT3 看起来 更 fancy。 但是 它 到底 能不能 代表 是 智能? 它 可以 完成 很多 任务, 但是 他 有可能 只是 说 在 网上 他 见过 这个 任务 怎么 完成, 对 吧? 他 学 过 他 就 记住 了。
所以 我们 当时 就在 想, 怎么样 能够 说服 我们 自己, 这个 东西 它 到底 有没有 质量, 到底 是不是 一个 更好 的 model? 我们 就 想到 一些 task, 主要是 通过 一些 简单 的 数学题。 因为 我们 之前 研究 GPT3, 我们 其实 存 了 很多很多 那种 非常 刁钻 的 问题, 一定 G P3 答 不 出来 的。 我们 把 这些 问题 在 gbt 4上基本上都 试 了 一遍。 令人震惊 的 是 GBT4 基本上 完美的 解决 了 我们 以前 觉得 人工智能 不太可能 能 解决 的 那些 问题。
一个 红色的 石头, 两个 蓝色的石头, 然后 三个 绿色 的 石头, 然后 你 一共 有 多少 组合 这样 之类 的 问题。 但 GPT3 它 就 没办法 知道, 比如说 这 两个 蓝色的石头 当你 抓取 出来 的 时候, 它 其实 是 同一个 石头, 它 都是 蓝色, 它 都是 石头。 你看 GPT 它 有 这个 常识, 这个 事情 我们 都 不需要 做 太多 的 prompt 的的 调整。 GPT4 好像 他 直接 就 把 这个 题库 做对 了。 然后 类似的 例子 有 非常 多, 我们 内部 其实 也有 分歧。 一部分人 会 觉得 这个 可能 也是 他在 网上见 过, 另外 一部分人 就 觉得 这个 网上 一定 没有。
所以 后来 就 想 了 越来越多, 网上 一定 不会 存在 的 很 奇怪 的 问题, 但是 它是 可以 解决 的, 只要 这个 模型 能够 推理 的 很好。 对 然后 后来, 发现 这个 模型 基本上 把 这些 都 解决 了。 所以 我们 最后 就 所有人 都 同意 这个 东西 他 确实 很 厉害, 他 确实 可以 称得上 它是 有 智能 的。 然后 他 到底 是不是 通用 人工智能 的, 值得 商榷。
因为 其实 现在 学术界 对 A G I 这个 词 也有 一点 过敏。 我 觉得 这个 词 一般来说 不太能 提。 但是 如果我们 抠 这个 字眼, 这个 artificial general intelligence, 那 G P4 它 确实 它是 artificial, 然后 它 general, 然后 我们是 发现 非常 的 general, 就是 我们 拿到 的 GPT4 版本, 它是 一个 文字版。 后来 OpenAI 说 的 那个 report technique report 说 他们的 GPT4是 可以 处理 这个 图片 输入 的。 但是 我们 拿到 的 那个 只是 纯文字 版, 而 我们 发现 这个 纯文字 版 的 GPT4 它 竟然 能够 看见。
它 看见 是 指 比如说 你 让 他 去 画 一个 东西, 它 并不一定 画的 很 完美, 但是 他 能 给你 画 出来。 比如说 一个 很 有名 的 例子, 就是 我们 让 他 画 了 一个 unico 独角兽, 然后 他 画 出来 了。 这个 首先 是 很 震惊, 对 吧? 他 从来 没有 见过 独角兽, 他 可能 读 到 过 独角兽, 他 可能 读 到 过 类似的 画 独角兽 代码 OK 他 现在 把 它 画 出来 了, 但是 我们 还不 满意, 他 有可能 就是 备注 了 这个 代码, 对不对?
我们 就 又 改 了 一下, 我们 把 那个 独角兽 代码 里 这个 画 头 的 和 画 脚 的那 部分 给他 去了。 然后 我 让 他 把 头上 那个 角 给他 加回去, 考验 这个 模型 他 到底 知不知道 他 画的 是什么? 他 到底 知不知道 独角兽 他 有 一个角, 而且 这个 角 要 长 在 头上 他 才 叫 独角兽, 不然的话 他 只是 马。 然后 结果 发现 模型 是 完全 知道 他在 干什么 的, 他 不仅 把 这个 东西 画 出来 了, 他是 完全 知道 我们 每 一行 代码 的 每 一个地方 画的 是 什么东西, 它 对 图片 的 相对 位置 的 感知, 然后 一堆 一些 常见 物体, 它的 形状 他 可以 把握。
的 非常 精确。 你们 有没有 测试? 就是 OpenAI 在 GPT four 那 一篇 论文 里边, 其实 提到 他们 让 GPT four 去 解读 一些 图片, 就 这 一类 的 测试, 你们 在 你们 那个 版本 P P T four 上 有 测试 过 吗?
有, 但是 形式 一定 是 不一样的。 因为 我们 这个 模型 它 本身 它 你 没办法 把 一张 图 输入 给他。 我们 能 做 的 就是说 可能 我们 可以 给他 一段 代码, 这个 代码 能够 大概 画 出 这个 图 的 样子, 然后 让 他 去 读 这个 代码, 一定 承认 他是 可以 做 这件 事情 的。 甚至 还有 网上 不是 有 很多 那种 叫 S K I 的 那种 art, 就是 用 那个 字符, 用 什么 星昊, 等号 画 一个 图, 那个 东西 他 也能 读, 你可以 用 那个 东西 摆 一个 数字 出来, 问 他 这是 几, 他 知道 这是 几, 他 可能 会 猜 错。 但是 他 对 这个 几何 关系 图片, 这个 视觉 的 这个 concept, 它 对 这些 东西 都是 有 理解 的对。
所以 回到 A G I 的 定义? 它是 人工 的, 然后 它是 general 的。 它 能 处理图片, 能 处理 文字, 甚至 还能 曲 能 写 代码? 然后 他 能读懂 人的 心理, 那 当然 是 general, 那 他 有没有 intelligence 呢?
这就 回到 了 什么 叫 intelligence s 这个 历史上 也没有 什么 很 好的 定义, 以太 的 卷子。 可能 在 这个 哲学家, 特别是 之前 有 研究人 人工智能 的 哲学流派, 他们 会 讨论 这个 事情。 但是 他们 从来 都 没有想象 过 这个 人工智能 到底 会 以 一种 什么样 的 形式 出现。 所以 他们的 那个 时候 对 智能 的 定义, 可能 现在 并 不太 切合 这个 大 模型 本身。 可能 人类 到了 现在 这个 时候 才 真正 有意义 来 讨论 到底 什么 是 intelligence。
我们 现在 是 真真切切 的 有一个 模型, 我们 每天 可以 跟 他 互动。 然后 这个 模型 它 已经 展示出 了 很多 跟人 非常 相似 的 一种 高级 的 推理 能力。 可能 这个 时候 我们 才 需要 好好 想一想, 我们 该 如何 定义 intelligent 这个 事情。 对 我们的 在 配乐 里 我们的 做了 一个 proposal。 就是说 我们 觉得 这个 东西 它 可能 已经 是 展现 了 很多 A G I 的 特质, 就是 它 可能 不完美, 但是 他 好像 是在 告诉 我们, 沿着 这条路 走下去, 终于 能够 看到 终点。
这一 版 你们 实验 的这 一 版 GPT4, 其实 并没有 加入 这个 多 模态 的 这些 训练 的 数据。 他 跟 我不知道 你们 内部 有没有 讨论 过, 它 跟 这个 ChatGPT 可能 3或者 3.5 能够 有 这么 大 的 一个 差异, 它 主要是 哪 一些 方面 的 提升 呢? 除了 这个 可能 数据 的 量 之外。
首先 这个 模型 的 细节, 包括 它的 训练 的 细节, 我们是 不太 知道 很多 detail 的。 我们 组 是 不知道 比如说 这个 模型 它 到底 有 多少 层, 具体 有 多少 这个 参数, 到底 用了 哪些 技术, 我们是 一概不知 的。 绝密 的 信息 他们 也 没办法 给 我们 透露。 但是 他们 给 我们 日常 交流 当中, 他们 告诉 了 我们 一些 他们 能 说 的。 就 比如说 他们 觉得 用 这个 R L 来 align 这个 事情 非常重要, 而不 只是 说 align 为了 safety online, 还是 说有 很多 东西 他在 那个 推理 层面 你 也可以 用 它 来。 比如说 你可以 写 代码 的 时候, 用 这个 给他 人工 给 到 feedback, 这个 算法 题 他 做对 了, 他 写 的 这个 代码 他 能 work 了, 对 吧? 你 给他 一个 reward, 然后 这个 模型 可以 这么 来 训练。 他们 做了 很多 关于 R 一方面 的 尝试, 然后 他们 告诉 我们 这方面 的 尝试 直接 决定 了 GPT4和 3.5 之间 的 差距, 当然 最 直接 差距 就是 GPT4。 虽然 不知道 它 参数 到底 有 多少, 但是 它 肯定 是 比 GPT3.5 要 大 好几个 数量级 的对。
这点 是 肯定 的。 慢慢 你说 大 好几个 数量级 还是 大 好几倍?
好几个 数量级。 因为 其实 GPT3.5 它 本身 不是 很大。 GP3.5 好像 这个 应该 是 公开 信息 了。 因为 它 有 那个 mixture for export, 它 可能 就 可能 少于 100个B点对, GPT3.5 应该 是 比 G P3 还要 小的, GPT4 它 肯定 是 比 GPT3 还要 大, 至少 1到2个 数量级。 那 之后 就是 可能 到 一个 training 或者 十个 缺点 这个 区间 之内, 我们的 猜测 是 这样, 但 这 只限于 猜测。
其实 还有我 看到 这个 论文 下面, 其实 在 也 提到 和 经常 会 提到 有 一些 limitation, 就是 一些 限制 或者说 可能 一些 挑战 要 达到 H I 这个 有 挑战 的 地方。 要不 张毅 也可以 跟 大家 分享 一下, 你们 看到 觉得 限制 怎么样? 而且 包括 像 house station, 就是 这种 幻觉 这些 限制 我 觉得 大家 讨论 一个点, 可能 不 只是 说 我 现 他 现在 有没有, 更 多是 说 我要 去 解决 它, 是不是? 这个 要是 一个 模型 层面 的 一个 改动, 还是 说 我们在 工厂 基于 现在 的 这个 架构, 我 慢慢 是 可以 去 通过 一些 改进 或 工程 上 的 一些 改良 去去 解决 的对, 可以 分享 一下 这方面 的, 你们 一些 learning.
我们是 比较 关注 这个 呃 他 推理 能力 上 的。 然后 有一点, 这个 模型 很 明显 的 不足 就是 在于 他 没有 办法 做 规划, 他 没有 办法 先 试错。 比如说 他 一 在 一开始 他 要 进行 一个 任务 的 时候, 他 一开始 不知道 怎么办。 但是 作为 人类, 我们 可以 比如说 先 往前走 几步 试试看, 对 吧? 不行, 我们 再 退回来。 但 这个 模型 它 只要 把 这个 字 写下去 了, 它 就 存在 于 这个 模型 它的 input 里 了, 对 吧? 它是 没有 一个 橡皮擦 把 它 擦掉 的。 然后 特别 是在 它的 网上 训练 的 时候, 比如说 我 让 这个 模型 来 接 来来 证明 一个 数学 定理。 一般 其 顶级 数学家 来 证 一个 数学 定理 的 时候, 也 很少 会有 一次 就能 把 它 证出来, 对 吧?
我们 一般 会 是 好几种 方法, 大部分 人 最后 肯定 都 不会 能 成功。 最后 OK 找到 终于 找到了 一种 成功 的, 然后 写 了 一篇 论文。 但 论文 里 他 只 会说 我知道 这个 方法 他 成功了, 他 不会 提 我 之前 试 了 100种方法, 这 一百种 都 是什么? 而且 都在 哪个 地方 失败。 所以 导致 这个 模型 他 很 容易 就是说 你 问 他 有 数学 问题 的 时候, 他 先 把 答案 给你 吐出来, 他 连 任何 步骤 都 没有, 后面 再 假装 写 很多很多 步骤。 一般来说 这个 答案 如果 他 一开始 涂 出来 一定 是 错的, 99% 都是 错的。 但是 他 后面 能 假装 写 很多 像模像样 的 步骤 来 justify 说 这个 答案 肯定 就是 对的。 他 并不是 说真的 说 像 人类 做 数学题 一样 一步一步 的 做, 他 没有 这个 试错 的 过程。
张毅, 你 觉得 这个 试错 的 过程 能不能 从 一个 调用 GPT A P I 的 方式 来做 的? 比如说 我 去 调用 的 时候, 我 给 不同 的 prompt 对 吧? 我 我 我的 prompt 让 他 去 按照 不同 的 途径 可能 去做。 就 等于 说 试错 这 一部分 是 放在 调用 GPT A P I 之外 去做 这么 一件 事情, 使得 最终 这个 解决方案 是 仍然 能够 达到 这么 一个 效果 的。 你 觉得 这个 靠谱 吗?
对, 这个 是 靠谱 的。 这个 是 之前 陶哲轩 他说 的, 就是 陶哲轩 这个 等级 数学家, 他说 他 已经 能够 用 ChatGPT 来 在 他的 这个 日常 的 数学 研究 工作 中为 他 提供 灵感 了。 对我 自己 也有 亲身经历 一些 例子。 就是说 我们 当时 是 想 测 这个 GPT 是 它的 数学 能力, 然后 当时 就 想 直接 一步登天, 我们 测 那个 I M O 你知道 I M O 就是 那个 国际 数学 竞赛 是 最难 的对, 高中 竞赛 我自己 不是 数学家, 对, 我们 组 其他 真正 的 那种 顶级 数学家 来说, 他们 也 不一定 当场 就能 想 出来。 但是 我 让 GPT c 来 写 来 解 这些 题, 它 一定 是 解 不对 的。 但是 他 一开始 给 的 那个 思路, 我 发现 是 非常 有用的。 就在 这个 情况下, 我自己 本身 是 没有 经过 I M O 训练 的, 他 能够 帮助 我。 比如说 把 去年 的 题解 出来 一道 到 两道, 我 让 他 先 解, 然后 我 顺着 他的 思路 往 下 想, 然后 当我 发现 他在 某 一个地方 犯了错 了 之后, OK 我 就 把 他的 后面 那 部分 去了。 我自己 在 想, 如果 这个 地方 不 犯错, 我 接下来 该 怎么做。 这样 我 沿着 他的 一开始 的 这个 答案 往 下, 我自己 写, 我 发现 我 能把 它 做出来。
但 如果 没有 GPT4 来 帮 我, 我自己 肯定 是 没有 办法 从头开始 把 这道题 做出来 的。 甚至 一开始 我 连 什么 工具 要 用 什么 定理? 这是 属于 哪个 方面 的 题目 我 都 不知道。 对, 这 可能 是 比如说 G P4 和人 一起 进行 试错。 对。
如果 用 new bing 的话, 就是 微软 说 这个 病 的话, 因为 它 跟 ChatGPT 很 不一样的 一点 是, 它 会给 你 原来 这个 来源 的 这个 link, 就是 那个 网页 的 link。 所以 这样的话 其实 是不是 可以 理解 为 它 在 一定程度 上 通过 加上 这个 来源 的 网页 链接 这种 方式, 其实 一定程度 上去 解决 了 幻觉 的 这个 问题。 但 其实 大家 能 感受 出来, 我自己 的 感觉 是, 其实 new ban 的 这个 推理 各方面 能力 其实 比 这个 GPT four 或者 ChatGPT 其实 还是 差 挺 多 的。 我 好奇 这个 是不是 也是 刚才 所说 的 一种 取舍?
对, 其实 对 我们 组 其实 在写 这个 Sparks of A G I 这个 paper 的 期间, 最 主要 的 工作 就是 我们 写 了 一半 的 那个 rubin 的 meta pro 就是 那个 网商。 后来 被 new bin 上线 24小时 之后, 就在 推特 上 被 人 给 破解 了, 拔出来。 对对对, 就 被 扒 出来 了。 然后 我 没想到 24小时 都 没 撑到。 对。
然后 你可以 看到 里面 做了 一件 事情, 就是说 GBT4 它 只是 决定 什么时候 要 去 call 这个 search engine 的 A P I。 然后 人类 是 帮 他 去 扩 真正 去 扩, 然后 把 这个 搜索 结果 返回 给他。 这个 确实 对 它的 思 这个 问题 有 很大 的 帮助, 但是 他 还是 没有 办法 完全 解决 这件 事情。 就 比如说 我们 当时 好像 是 问 某 一个 东欧 小国, 最大 的 10座城市 以 人口。 网上 你可以 找到 那个 网页, 那个 网页 上面 确实 有 十大 城市, 十个 城市 都有。 但是 限制 于 这个 bin 的 它的 搜索 A P I, 我们 返回 的 返回 给 GPT4 的 结果, 只有 五个 城市, 只有 前 5GPT4。
看到 前 五 他 觉得 OK 够了, 然后 他 就 把 前 五 复读 了 一遍。 那 前 五都 是 对的, 没问题。 但 从 第六个 开始 他 就 自己 想象 了, 但是 想象 的 差 的 也 不多, 就是说 可能 五位 数字 后面 三位 两位 差差 了 一点, 但是 我们 觉得 这也是 hello 的。 在 这种 一半一半 的 情况下, 这个 问题 它 有 一半 的 事实, 剩下 一半 事实 他 好像 有点 模糊 的 记忆, 其实 跟人 一模一样, 人 说话 可能 也就是 90% 的 非常 确定 的 事实, 然后 再加 10% 的 假话? 那 这个 问题 我们 到 最后 都 没有 解决 的 很好。 我们 觉得 这个 可能 是要 以后 在 这个 数据 或者 在 模型 训练 的 层面 能 解决, 而 不是说 只是 说 meta prom 层面 能 解决 的 问题 的。
对, 关于 和 人类 对比, 这个 很 sation。 其实我 我的 一个 感觉, 因为 像 人 其实 也 一样。 因为 人 比如说 学习 或者 认知 知识 其实 有 几个 阶段。 我们 通常 在 说 就是 有有 那 四个 经典 的 阶段, 就是 不知道 自己 不知道。 然后 第二个 阶段 就是 知道 自己 不知道, 后来 要 知道 自己 知道, 到 最后 可能 不知道 自己 知道, 他 已经 顿悟 了。 其实 可能 现在 GPT4 估计 还是 处于 最早 的 那个 阶段, 就是 我不知道 自己 不知道, 所以 他 就 自己的 天马行空 的 自己 去 凭空 生成, 或者 在 decoding 去 逐步 解码。 单纯 模型 自身 的 角度 是 很难 让 他 知道 哪个 东西 是 错的, 所以 还是 可能 要 进入 到 人的 学习 过程。 比如说 小孩子 他 可能 什么东西 都 不懂, 那 还是 要 需要 更多 的 反馈。
我们 现在 可能 GPT4 的 训练, 我 觉得 可能 大部分 是一个 课本 知识。 少部分 是 比如说 instruction in 或者 feedback。 但 你 像 人类 的 学习, 其实 对于 课本 知识 来讲, 应该 只占 到 一部分人。 更多 的 学习 要在 比如 在 家庭 里边, 在 学校 里边, 在 社会 里面 去 跟 其他人 互动。 通过 互动 学到 很多很多 反馈。 这样 才能 逐渐 的 让 自己 不知道 自己 不知道 到 知道 自己 不知道 这样的 过程。 可能 这个 就会 涉及到 我们 新的 一些。 模型 训练 机制, 比如说 自身 的 人工智能 等等等等 的 方向。
在这里 我 发表 一点 看法, 其实 它 会 更 本质 的 一个 解决方案 还是 要 从 模型 下手。 就 比如说 从 PT3.5 到 GPT4, 其实 它的 这种 幻觉 的 现象 是 降低 了 非常 多 的。 如果我们 去做 对比 的话, 那 这 里面 可能 有有 不同 的 因素。 我 觉得 第一个 可能 是 模型 基本 能力 其实 强 了 很多 的, 就是 它的 pretend 的 阶段 能力 已经 变得 很强。 然后 在 R L H F 或者 最近 应该 慢慢 成熟 的 技术, 还有 I O A I F, 就让 A I 自己 帮助 自己 来做 这些 手段 其实 都是 有 提升 空间 的那 除此以外 其实 还有一个 技术, 在 我们 现在 I L 的 这个 训练 过程中, 实际上 这个 方法 它是 还是 有 比较 大 的 问题 的。 比如说 我们 现在 去 回顾 R O H F 的 这个 过程 的话, 它 第一步 是要 基于 人工 标注 的 数据 来做 supervised fine tune。 然后 第二步 的话, 我们会 去 训 一个 reward model, 来来 比较 两个 答案 哪个 好 哪个 坏。 第三步 再 用 这个 report 的 model 去做 强化 学习 的 训练。
但是 我们 就 看到 这 里面 当 模型 输出 一个 人类 认为 不够 完美的 答案 的 时候, 我们的 反馈 只是 一个 reward。 这个 reward 其实 并没有 那么 准确, 或者说 没有 那么 精确。 我们 只是 惩罚 了 一下 这个 模型, 但是 并没有 告诉他 到底 往 哪儿 对了。 就是 在 方法 上 可能 还是 有 非常 多 可以 挖掘 的 地方。 我 觉得 这也是 对于 研究 的 团队 最重要的事 情, 就 是从 基础 模型 上来 去 解决 幻觉 的 问题。
对我 我 非常 同意 这一点。 然后 我 觉得 还有一个 跟 这个 非常 相关 的 一个 研究 领域, 到 现在 就是说 可能 我 听说 很多人 在 做, 但是 我 现在 还没有 见到 任何 的 结果, 可能 很快 就会 大家 都会 见到, 就是 怎么 检测 这个 模型 它 处于 一种 什么 状态。 我们 当然 是 现在 是 比如说 拿 不到 GBC4 它 内部 的 一些 运算 的。 比如说 它 每 一层 的 输入输出 我们是 拿 不到 的。 但 假设 我们 能够 拿到, 我们 能够 先 在 小 模型 上 做 这件 事情, 如果 他是 在 hello 斯 nate 的 时候, 我 能不能 通过 他 一些 内部 运算 的 结果 来 独立 的 train 一个 classifier。 就 classic 可以 告诉我 这个 模型 现在 很有可能 在 胡说。 或者 是 他在 输出 一些, 比如说 他 之前 记住 了 关于 版 那个 版权 的 内容, 比如说 一些 书 的 章节 的 时候, 他 可能 告诉我 这个 模型 现在 很有可能 在 Violet copyright。 然后 我 现在 还没有 看到 太多 的 结果, 但是 我 觉得 是 非常 有意思, 很很 重要 的 一个 领域。
正好 刚才 我们 提到 了 这个 一些 限制, 我不知道 还有 哪 一些 大家 觉得 要是 最终 实现 我们 所 期望 这个 A G I 也好, 或者 更强 的 智能 也好, 大家 觉得 还有 哪些 限制 可能 是 大家 也 想 拿出来 讨论。
关于 这个 点, 其实 因为我 我 觉得 我们 前面 其实 说 了 很多 A G I 或者 现在 GPT4 然后 很 好的 一面。 但 可能 我们 也要 再从 另外一个 角度 去看看, 比如 现在 G P S 它的 一些 方法论, 然后 通向 它 现在 的 智能 是一个 什么样 的 途径。 其实 我们 都 知道 像 思考快与慢 这样的 书, 它 其实 因为我 很快 spx A G I 里面 也 提到, 经常 提到 这个 概念。 就是 可能 现在 这些 模型 更多 还是 做 一个 数据 的 频率 统计, 然后 做 一个 pattern 的 映射。 可能 更多 像是 一个 思考 跨 页面 里面 的, 比如 系统 一 的 方式 去 解决问题。 也就是 它 中间 没有 非常 强 的 或者 完整 的 推理 过程。 当然 现在 有些 机制, 比如 chef salt 类似的 这种 prompting 的 机制, 让 它 强制 去做 这种 慢 思考, 然后 一个 链条, 然后 把 中间 的 步骤 都 拿出来。 但 我 觉得 本质 上 现在 的 模型 还是 在 为 数据 对 是否 未来 有一个 更好 的 能够 实现 推理 的 计划, 或者 是 认知 一些 逻辑 上面 的 一些 技术方法, 这个 不是 特别 清楚。 这个 可能 也是 需要 我们在 思考 的, 是否 GPT4 这种 暴力 的 语言 模型 是 通往 A G I 的 最好的 途径。
我自己 觉得 还有一个 limitation 是 我们 一定要 解决 的, 就是 真正 的 多 模态, 不 只是 说 它 能够 读图, 就是 O 因为 OpenAI 的 版本 他们 claim 他们 是 GPT4 已经 能够 读图 了。 但是 我是 觉得 读图 不过 这个 事情 是要 从 他的 预 训练 就 开始 的。 比如说 这 小孩子 他 通过 视觉 收集 到 的 信息, 其实 是 他 这个 成长过程 中 最 重要 的 信息。 比如说 可能 有些 盲人 的 小孩, 他 要 经过 特殊 的 训练, 他 才能 改 得 上 正常 小孩 的 智力 发育 水平。
然后 具体 一点, 就 比如说 像 我们 解 数学题 的 时候, 如果 旁边 有一个 图, 它 不一定 要是 几何体 甚至 代数 题。 有时候 你 画图 给你 一个 更 直观 的 感觉, 也会 帮助 你 解题, 这是 写 代码 对 吧? 做 这个 代码 的 面试, 你 最好 也是 拿 一张 纸边 做 边 边画。 所以 我 觉得 最好 是要 把 这个 全网 的 图 都 用 起来, 特别是 现在 GPT4、 GPT3.5都 已经 把 全网 的 所有的 文字 信息 都 已经 用 完 了的 情况下。 就 比如说 如果我们 要 建 GPT5, 我不知道 他们 在 不 在建 了。
就 下一代 模型, 这个 模型 当然 是要 变更 大, 但是 模型 变得 更大 的 更多 的 数据 从 哪 来? 人类 最大 的 数据库 就是 youtube 上面 所有的 视频, 而且 很多 视频 的 质量 非常 之高。 特别是 那些 比如说 教 大家 怎么 写 代码 的, 教 这个 基础 数学 的 视频 数据, 它 太贵 了。 比如 E T B 你 可能 都 存 不了 几部 电影, 但是 E T B 你 基本上 好像 全网 的 文字 数据 也就是 在 这个 十几 TB100 不到 100TB 这个 数据 这个 量级 脏 点, 所以 就 怎么样 用 好 人类 非常 高质量 的 视觉 信息, 然后 能够 让 他 帮助 这个 模型 更好 好的 推理。 这个 事情 我们 必须 得 解决, 然后 现在 好像 还 看不到 很 明显 的 能够 解决 他的 办法。
张毅, 你是 猜想 GPT four 那个 认识 图 只是 做了 一个 fine tuning, 你 觉得 没有 放到 free training 里面 去?
对, 这 只是 猜想 了。 根据 成本 的 而言。
这个 应该 是 挺 确定 的。 就是 G P 的 训练 retrain 是 纯 文本 的, 然后 图像 是 后面 加进去 的。
所以说 称 它是 一个 multi model 是 有 问号 的对。
他的 motor model 并不是 很 本质。 而且 同样 的 做法 在 学术界 基本上 同一时间 就是 C M U 的 那个 rush 他们 组, 基本上 他们 在 一个 开源 的 O P T 模型 上 做了 同样 的 事情。 他们 就是 做了 你可以 find two, 把 它 图 加上 去, 这个 东西 并不是 很难, 所以 我 并不 觉得 这是 GBD4 的 一个 亮点。 对。
就是 它 不 只是 说 把 图像 拿来 放 tune, 这 里面 我们 说 它 没有 在 回 穿 的 阶段 加入 图像, 是 说 文本, 也就是说 这个 base model 它的 preach 还是 成本。 但是 图像 的 特征 表示 它 有 自己的 一个 预 训练 的 过程, 它 还是 有 预 训练 的, 应该 是 把 图像 文 本来 预 训练 出来 一个 图像 表征, 然后 文本 就 用 GPT 做 一个 GPT 的 retry, 然后 两个 都 不称 完了, 再 把 各自 再 把 图像 的 表征 粘 到 这个 GPT 的 model 里面 来, 就 应该 是 这样 一个 过程。
你说 表征 就是 embedding, 就是 把 那个 图像 的 embedding 放到 表征。
就是你 把 一张 图像 变成, 对, 您 说 的对, 变成 一个 embedding。 但是 这个 embedding 要 跟 文本 的 embedding 能够 match, 这样 我们 才能 理解 用 文 本来 表达 这个 图像, 来 描述 这个 图像。
对对对, 对我 我 正好 好奇, 就是我 之前 跟 秦 博士 也 聊过 这个 话题, 就是我 好奇 现在 业界 有没有 人 尝试 说 在 retrain 的 阶段 就 直接去 给他 为 这些 多模 拍 这些 数据 其实。
是 有的 offer。 I 在 做 完 GPT two 以后, 马上 就 做了 image GPT, 其实 那 就是 一种 尝试。 但是 他 当时 没有 把 图像 和 文本 一起 做, 而是 图像 单独 去做 一个 preter。 后来 在 deep man 的 工作 里面 goto 去 做了 一个多 模态 的 输入。 但是 他 那个 目标 还 不是说 去做 这种 我们 想要的 这 用 文本 和 图像 家庭 做 配置。 它 更多 的 是 把 各种各样 的 模态 的 数据 拿 进来, 看我 能不能 统 一起来, 更多 的 是一种 实验性 的, 还没有 那么 成熟。 像 刚才 张译 想 看到 的 这种, 我 觉得 是 还没有 figure out 一种 高效 的 并且 有效 的 方法。
这里 可能 还是 一个 怎么 去 定义 智能 这件 事儿。 就是 你看 我们 去 说 这个 大 语言 模型 的 时候, 实际上 它是 有 一些 智能 在 的。 但是 像 GPT four 这种 方式 把 图像 加进去, 他 似乎 并 不是说 加 了 图像 就 加 了 智能, 而是 说 智能 不变。 他 把 这个 大元 模型 装 上了 一双 眼睛, 让 他 除了 看 懂 文本 也 能看懂 图像, 但是 他 脑子 的 智商 是 不变 的。 就 具体来说 的话, 其实 开源 领域 有一个 论文, 就 deep man 的 flaming go, 他 已经 做了 一些 图文 输入 的 demo。 然后 技术 我 猜测 跟 GPT four 应该 是 有 很大 的 相似性 的。 在 这个 前 底下, 其实 我们 需要 一个 比较 严谨 的 评测 基准。 比如说 计算机视觉 里面 像 物体 识别 的 能力, O C R 就 光学 字符识别 的 能力, 还有 场景 理解 的 能力。
现在 其实 我们 还没有 看到 一个 针对 于 这种 多 模态 冒 痘 的 很 好的 一个 评测 基准。 未来 的话 应该 是 怎么样 让 多 模态 信息 能够 拿来 理解 世界? 举 个 例子, 就是 像 人是 懂 语言 的, 但是 猫 摸 狗狗 这些 动物 们 其实 并没有 一个 语言 模型。 但是 他们的 视觉、 听觉? 还有 味觉、 触觉 可以 让 他们 获得 对 周围 的 世界 有一个 相当 丰富 的 理解。 所以 这些 宝贵 的 多 模态 信息, 他们 更有 价值 的 用途 应该 是 在于 增进 对 世 理解。 这 背后 其实 是 有 关于 智能 的 一些 理论 基础 的。
好, 我们 刚才 聊 了 很多 接下来 这个 话题 就是 可以 聊 非常 长 的 时间。 但 其实 今天 我们 其实 还有一个 很 重要 的 另外一个 话题 想要 聊 的 是 为什么 请 谭 旭 来 的 原因。 谈 续 是 哈根 GPT 这 一篇 论文 的 作者。 自从 寒冰 GPT 之后, 包括 我们 看到 像 O G P T, 还有 前段时间 完成 了 几千 万美金 融资。 这个 fixy 其实 越来越多 的 公司 都在 加入 我们 所谓 的 intelligent agent 的 阵营。 所以 这次 也 想听 谭 旭 来 聊 一 聊, 给 大家 介绍 一下 最近 非常 火 的 哈根 GPT 的 也是 这 研究 的 背景。 然后 他的 一个 运作 机制, 以及 我们 现在 看到 的 出现了 很多 类似 GPT 这 一些 工具, 它们 之间 的 一些 主要 的 一些 路径 核心。
的 差异 在哪? 他 跟 GPT 其实 它的 核心思想 就是 觉得 现在 的 语言 模型 解决 复杂 任务 的 能力 还 不太 够。 所以 他 就 比如 多 模态 的 或者 更加 长 链条 的 一些 任务。 所以 他 利用 语言 模型 来 作为 一个 调度 的 中心, 通过 解析 用户 的 请求, 把 它 分解成 一个 不同 的 子 任务。 比如说 用户 的 任务 都很 复杂 的 情况下, 我们 拆解 丸子 任务 以后, 就 去 call 或者 去 调用 一些 专家 的 模型 来 分别 执行。 这个 拆解 的 子 任务 之后, 把 它的 结果 汇总 起来, 整理 成 最后的 回复 或者 是 结果 返回 给 这种 用户。 也就是说 相当于 一个 语言 模型 作为 大脑 系统, 而 各个 专家 模型 去 干 自己的 每个 子 任务 的 事情, 然后 形成 一个 有点像 一个 复杂 的 人工智能 的 解决方案。
能不能 讲 一个 分享 一个, 你 看到 一个 非常 很 不错 的 应用, 用 还给 你 GPT。
往往 在 学术界 或者说 当前 开发 的 一些 系统, 它 都是 面向 单个 任务 的。 比如说 图像识别, 或者 是 文本 的 生成, 或者 是什么 检测, 或者 是 语音 合成。 那 往往 我们 需要 的 一些 能力 是一个 长 链条 的 或者 很 复杂 的, 而且 并且 更 面向用户 的 实际 需求 的。
谈 一个 最简单 的 例子 就是 就说 我想要 让 A I 去 生成 一张 图片, 那 他是 在 做 一个 动作, 或者 他 比如 他 躺在 沙发 上 读 一本书, 但是 我 要求 这个人 他 会有 某些 动作 或者 姿态, 他是 要 向 另外 一个人。 那 另外 一个人 他 其实 可能 不是 在 读书, 或 他在 比如 骑 一个 滑板 或 别的。 同时 我们 也 需要 用 一个 声音 去 把 这个 画 出来 的 图 描述 出来, 它 就是 一些 可能 典型 的 A I 任务 的 复合。 这里 边 可能 如果 拆解 这个 复杂 任务, 它 就 需要, 比如说 我要 用 那个 参考 图片, 我要 去做 图像 的 检测, 或者 是 定位, 或者 skill 的 识别, 之后 我要 去 调用 A I 的 生成 模型 去 生成 这个 图片。 生成 图片 以后, 我要 去 对调 caption 的 模型 去 描述 图片, 之后 调 T D S 的 模型 把 它 合成 出来。 但 这是 只是 一个 我们 比较 容易 理解 的 A I 任务 的 例子, 当然 还有 很多 复杂 的 场景。 只要 我们的 语言 模型 足够 的 强大, 它 可以 把 你 复杂 的 用户 的 需求 给 它 拆解 成 AI 可以 实现 的 任务 的 方式。
如果 跟 现在 另外一个 比较 红火 的 auto GPT 比 起来, 这 两个 概念 或者说 这 两个 各有 什么 擅长, 有些 什么样 不同 吗?
我 觉得 可能 本身 的 auto GPT, 它 更 多是 围绕 着 语言 模型 为 中心 去做 一些 事情。 比如说 它 主要 以 GPT 第四 为基础, 然后 通过 去 构造 它的 prompt, 然后 让 GPT4 比如 反复 的 去 迭代 调用, 完成 一些 复杂 的 功能。 Auto GPT 诞生 之初, 它 这个 项目 可能 更多 的 核心思想 是 说, 能不能 让 一次 去做 商业 决策, 最后 能 帮 我 去 赚 多少钱。 所以 他说 怎么 去 优化 我的 这个 商业 的 一些 策略 之类 的。 所以 它 核心思想 就是说 我 让 GPT 去, 比如说 我 用 一个 文字 去去 prompt 给 G P4。 G P4 他 就会 帮你 去 分析说 我要 做 这个 任务, 我需要 做什么 事情。 他 可能 主要 有 好几个 功能, 就是说 比如 他 可以 访问 互联网, 去 搜索 和 收集 信息, 然后 以及 你 历史 做 过 什么样 的 决策 或者 是 对话。 他 可以 用 内存 去做 管理。 最后 生成 的 结果, 它 可以 用 通过 文件 存储 或者 是 通过 GPT 去做 summer ration。 也就是说 偏倚 GPT4 为 核心 为 主体 的, 让 GPT4 自己 可以 run 起来 的 一个 系统。
而 哈根 GPT 更 多是 强调 GPT 的 这种 语言 模型 只是 一个 大脑, 它 只是 负责 调度 决策 或者 整合。 具体 执行 的 任务 还是 交给 更 擅长 他的 专家 模型。 这个 专家 模型 也 可能 是 语言 模型 本身, 但 也有 可能 是 更多 广泛 的 别的 模型。 就 未来 形成 一个 协调 的 系统, 一起来 配合 完成 一些 复杂 的 A I 任务。 可以 说 就是 auto GPT, 它 可能 会 面向 一些 更 泛 的 一些 任务 场景。 哈根 GPT 它 更 强调 的 是 一些 复杂 的 A I 任务, 可能 更加 专业 的 一些 问题。
所以说 那个 hacking GPT 要 做好, 其实 还是 最好 从 best practice 是 跟 专家 模型 一起 做对 对。
就 他 需要 有 专家 模型 来做 支撑, 才可能 把 这个 生态 转 起来。
我 好像 这个 调度 planning 的 能力, 它 跟 大 模型 哪一块 的 能力 相关性 是 更强 的? 比如说 它 是不是 reasoning 的 能力 越 强, 像 GPT4 这样的, 它的 调度 能力 就 应该 会 越 强。 还是 说 它 更多 的 还是 取决于 fine tuning 这个 阶段。
它 调度 本身 可能 就 两两 几个 事情。 一个 是 有 比较 好的 contest 的 长度, 比 现在 G D 4已经 很好 两三万 的 长度 了。 所以 它 能够 足够 让 我们 把 这个 任务 描述 清楚, 我们的 deposition 和 prompt 去 非常 详细 的 描述 这个 任务 的 一些 事例。
我我我 另外一个 就是 他 还是 需要 有 推理, 有 要有 理解。 因为他 要 选择 决策, 就是我 我要 做 这个 事情, 我要 去 了解 现在 有 哪些 工具, 我 从 工具 里面 去 选择 哪些 工具 来 去做。 这个 可能 就是 一个 涉及到 决策 的 东西, 可能 两方面 能力 都 需要。 如果我们 在 能 基于 大 模型 去 翻看 有 这样的 印刷 的 数据, 那 它 会 做 的 会 更好。 比如 我 理解 就是 后面 可能 有一个 配置 叫 open A G I 还是 什么。 他 好像 里面 就 提到 说 我们 不是 zero shot full shot 去做 planning, 而是 拿 一些 示例 数据 去 翻, 效果 可能 会 更好。
我看 oto GPT 上 大家 分享 了 很多 很 有意思 的 demo。 在 网上 比如说 我 让 它 自动 去 完成 一个 网站, 建 一个 写 一个游戏 什么的。 其实 这里 边 很多 是不是 A I 的 工 做, 不是 用 A I 模型 来去 完成 工作。 是不是 说 对于 这些 其实 用 auto GPT 就 更 合适 一些?
对我 的 理解 是 这样, 他 可能 会有 一些 流程化 的 东西, 你说 他 每个 动作 有 多难, 或者 有 核心 的 我们 A I 的 能力, 可能 不一定 见 的。 他 也没有 那么 依赖 说 我们 产生 的 一些 A I 的 专家 模型, 它 就是 一些 更多 的 依赖 的 是 GPT4 的 语言 理解能力。 其实 因为 我们 可以 看到, 现在 AI 的 解决方案 其实 经过 了 很多 不同 的 范式。 比如 早期 我们 有 这个 专家系统, 就是 神经网络 之前 的 那个年代, 后面 我们 有些 统计 机器学习 的 方法, 到 后面 我们 有 深度 学习 的 模型。 到 这几年 我们 有 foundation 的 大 模型。 可能 逐渐 的 我们的 能力 就 变强。 以后 我们会 去 踏实 更 多任务、 更 复杂 任务 或者 更 深度 的 A G I 的 能力。 也许 再 往 下一代 就是 基于 foundation 模型, 然后 去 连接 各个 自己 领域 的 专家, 然后 解决 更 复杂 更 实用 的 问题。
比如 像 早期 我们 做 操作系统, 其实 也 不是说 把 所有的 任务 全 做了, 就是 开放 一个 平台。 但是 很多 软件 开发者 可以 这个 操作系统 去 完善 windows 的 生态, 让 我们 可以 做 很 复杂 的 任务。 那 可能 现在 也是 个 仿真 性 模型, 做 完 以后 不见得 我们 每个 公司 或者 每个 团队 都要 去做 仿真 性 的 模型。
如果说 我只是 一个 数据 的 问题, 那 理论上 来讲, 你可以 说 我 去 fine tune 一个 大 模型 也能。 但是 fine tune 的 时候, 你 可能 对 reasoning 的对 推理 的 能力 可能 会有 一些 损坏。 因为 有可能 是 overfeeding 或者 怎么样。 所以 因为 这个 原因 是不是 会说 我 还是 啊不要 去做 fine tuning, 就 就 就 去 从 把把 这些 专有 的 数据 放到 预 训练 里面 去 可能 会 更好。 这 是我的 一个 问题。
我 觉得 现在 这个 最大 的 瓶颈 就是 在 这个 地方。 学术界 其实 也 不知道 我 这个 模型 训练 完了 之后, 我 怎么样 fine tune 能够 他 既 学到 新的 知识 又不 把 旧 的 忘了。 Fine tune 的话 就是 大家 得 非常 的 小心, 特别是 当你 这个 领域 需要 非常 强 的 reasoning 能力 的 时候。 基本上 find 2可能 不是 一个 最好的 选项。 但是 我 个人 觉得, 这 只是 一个 技术 层面 的 问题。 就是说 他 我 觉得 这个 问题 并 无 本质。 就是 随着 时间推移, 可能 一两年 等 大家 用 这个 模型 多了 之后, 然后 发现 这个 经验 越来越多, 可能 会 找到 一个 比较 好的 办法。
我 个人 的 想法, 关于 这个 是不是 需要 各个领域 都 需要 一个 foundation model 呢? 我也是 觉得 不需要 的。 但是 我 可能 我 现在 是从 比如说 它的 cost 和 它的 这个 商业 角度 来 考虑。 因为 一个 大 模型, 比如说 GPT4, 我们 虽 也 不知道 他 具体 花了 多少钱, 但是 这个 模型 训练 本身 我猜 应该 是在 一 b lion dollar 上下 的。 因为 当时 是 微软 注资 了 two billion dollar, 对 吧? One billion dollar 现金, 然后 one billion dollar 的 edit credit, 这个 是 发生 在 GPT3 之后, 这笔 钱 肯定 是 运用 完了, 然后 微软 还 投 了 新的 一笔 钱。 就 这个 程度 的 投入, 并 不是说 大部分 的 公司 能够 承担 的, 而且 这 是一个 high risk。 到 现在 也 只有 OpenAI 一家 公司 做出来 这么 厉害 的 感觉。
其他 公司 的 模型 虽然 有, 但是 好像 还差 了 一代。 甚至 现在 训练 这种 大 模型 都 已经 到了 一种 地球 上 的 资源 够不够 的 这种 一种 程度。 就是说 就 GPT c 它 肯定 是在 比如说 英伟 达 的 A 100上训练 出来 的。 然后 可能 现在 对 这个 微软 的 A C cloud 里面 是 包含 了 地球 上 大部分 的 A E 版, 但是 还是会 不够 用。
然后 其他 的 公司, 比如 像 国内 一些 大 的 公司, 可能 他们 会有 比如说 上 千块, 甚至 比如说 1万块。 但是 这个 是 也许 可以 支撑 一次 非常 成功 的 预 训练, 但 如果 这一次 失败 了, 可能 就 没有 机会。 再说 我 进行 微调, 调整 它的 have private, 我 再试一次, 可能 会 没有 这个 机会。 我 觉得 以 人类 现在 这个 资源 和 这个 资金 新的 方面 来说 的话, 不太能 支撑 每个 领域 都 有一个 大 模型。 所以 现在 我们 还是会 尽量 想办法 把 这个 fine tune 给 做好。
那你 觉得 以后 随着 以后 的 硬件 也会 不断 的 提高, 另外 大家 也 可能 去 发现 有 各种各样 的 方式 方法 去 优化 那个 训练。 你 觉得 这个 就是 大 模型。 这么 多 的 钱 去 烧, 是一个 本质 上 不会 在 五年、 十年 内 不会改变 的 吗? 还是 说过 个 五年、 十年, 其实 产业界 就 会有 很多 个 公 是 都 能够 去 有有 这个 实力 去 运 训练 应该。
是 非常 大 的。 这个 局面 应该 很快 就会 改变。 比如说 2016年 17年 对 吧? 那个 时候 可能 renee t 或者 是 dance net 刚刚 出来, 那个 时候 其实 我们 觉得 训练 这些 模型 也很 难, 对 吧? 现在 的话 就 感觉 好 简单, 像 这些 都是 小 模型, 对 吧? 我 觉得 这个 技术进步 是 非常 快 的。
然后 还有 一点 就是说 open I 它 到底 有没有 自己的 秘密? 他 现在 显得 很 有秘密, 比如说 在 paper 里 他 都 没有 说 这个 模型 有 多大, 到底 是 怎么 训练 他 这个 模型 长 什么样。 GPT3都 说 了, 但 GPT4 就 一个字 不说。 我 反而 会 觉得 可能 他们是 会有 很多 别人 不知道 的 trick, 导致 于 别的 公司 的 尝试 到 现在 看起来 好像 都 没有 他们的 强。 但是 这个 trick 本身 可能 是 很 简单 的, 几句话 就能 说 清楚 的这 就 需要 大量 的 试错。 所以 当 更多 的 公司 去 加入到 这个 里面 来 的 时候, 大家 试 了 很多很多 次 之后, 我 觉得很有 可能 就 把 这个 事。
给 找 出来 了。 我 好奇 秦 博 洪 博士 和 张译 你们 有 试用 过 这个 o GPT, 会有 了解 这个 领域 吗? 我 好奇 你们 俩对 这个 领域 的 看法 是 怎样 的?
其实我 觉得 a agent 这个 事情, 其实 它 非常 的 通用, 然后 agent 它 其实 也是 关于 智能 intelligence 的 研究 中 一个 非常重要 的 概念。 刚才 我们 聊 了 很多, 其实 都 是从 应用 或者 我们 就要 从 互联网 的 视角 来 看待 的那 我们 先 说 从 互联网 的 视角。 不管 是 auto GPT 还是 hacking GPT, 或者 是 open 发给你 的 插件, 实际上 它 都 是在 用 大 语言 模型, 然后 调用 一个 的 A P I。 每 不管 是 model 还是 外部 的 一个 成熟 的 外部 A P I, 其实 我们 都 可以 把 它 看成 一个 A P I。 其实 我们 可以 从 open I 的 这个 plug in 的 设计 里面 看到 很多很多 东西 的。 在 分析 之前 我们 先 有一个 背景, 这个 背景 就是 open I 最 关心 的 一定 是 A G I。 他 关心 的 其实 并 不是说 ChatGPT 这个 生态 或者 挣 多少钱, 他 最 关心 的 还是 A G I。 当我们 有了 这个 背景 之后, 再去 看 普拉格, 因 这个 事情 就 会能 看到 新的 东西。
比如说 刚才 我们 讨论 到, 其实 现在 的 GPT 在 做 规划 的 时候, 其实 他 并 不能 总是 很 确定 的 知道 在 什么时候 我应该 调用 哪一个 A P I chat P T 那边 其实 也是 不知道 的, 他 现在 是 怎么做 的。 他 其实 是 让 用户 来 指定 我要 用 哪些 plug in, 然后 我 告诉他 我的 任务 是什么, 这样 去做 的那 这样 其实 可以 猜测 open I 其实 是在 收集 数据, 他 想 让 人类 替 他 把 这件 事儿 给 做做 了, 给 标注 好。 当我 想 完成 某 一个 任务 的 时候, 我 该 调用 哪些 A P I。 而且 这件 事情 做 完 之后, 他 还能 拿到 一些 feed back。 这个 事情 到底 有没有 完成, 这个 数据 是 很 宝贵 的 数据, 对 未来 他 去 升级 自己的 GPT 是 不可或缺 的 一个 数据。 更 恐怖 的 是 说 A P I 现在 我们 看到 只是 几十个 或者 几百个 这种 外部 的 A P I 更进一步 本地 的 软件, 每个 APP 其实 也可以 看 这个 A P I 操作系统 的 各种各样 的 函数 接口, 也可以 看作 A P I 更进一步。
各种各样 的 硬件。 比如说 各种各样 的 传感器, 温度传感器、 激光雷达 传感器、 视觉 传感器, 还有 机器人、 机械臂 等等。 这些 东西 都 可以 做 一个 A P I 来 接到 这个 大脑 里面 去。 所以 这 是一个 很 本质 的 事情, 那 就是 通用 智能 general intelligence。 他 就 要求 你 这个 agent 能够 在 尽量 多 的 环境 里面 能够 成功 的 执行 任务。 你 能够 在 越多 的 环境 里面 生存, 你 就 越 intelligent, 这是 智能 很 本质 的 一件 事情。 所以 open I 在 做 plugging 这个 生态 的 时候, 他 已经 很 他 已经 想 清楚 了 A 进 通用 A 进 的 这件 事儿, 也 想 清楚 了 这是 通往 A G I 的 一个 很 重要 的 路径。
我 之前 看到 一个 很 有意思 idea, 就是 大家 要 open source build model 这个 事情。 本身 这个 idea 就是 以后 可能 这个 model 并 不是说 由 一家 公司 来 吹, 甚至于 不是 由 一个人 来 吹。 就是 每个人 可以 给他 提供 一个 部件, 比如说 是一个 上 的 一个 X 的 模型, 专家 模型, 需要 一个 中心 的, 可能 是 OpenAI, 可能 是 别的 公司 他们 来 处理。 怎么样 把 这些 所有的 模型 都 结合 在一起, 然后 做到 这个 一加一 大于 二 的 效果。 因为我 我们 现在 猜测 那个 GPT4 或者 G P3.5, 它 也 本身 就在 使用 一种 叫 mixture of expert, 就是 它 里面 有 很多很多 的 pathway, 然后 遇到 不同 的 输入, 它 会 调用 这个 模型 中间 不同 的 部分 来来 处理。 所以 其实 这个 是个 也很 很 方便 的, 能够 把 很多很多 看起来 不相干 的 专家 模型 给 联合 到 一个 模型 上 的 一个 技术。
所以 这 在 可能 未来 的 模型 行 的, 就 不是说 一个 模型 我 拿来 发现 吐 或者 怎么样, 而是 说 如果我 需要 这个 模型, 需要 一个 功能, 我可以 自己 提供 一个 专家 模型。 就像 我需要 这个 github 上 一个 rapper 它 overall 很好, 但 就 缺 一个 功能 我 很 需要, 那 我 就可以 fork 它, 我 K 它 之后, 我我我 自己 把 这个 功能 写上去。 我 还 可以 要求 他们 做 一个 pull request 的, 把 我的 写 的 这个 新 功能 给 放到 那个 branch 里 去, 对 吧? 很有可能 以后 的 模型 变成 这样 了, 然后 这个 模型 它 这样 迭代 的 速度 会 越来越快。
就是说 你可以 把 一个 小 模型 给 加 到大 模型 里面 去。 这个 跟 fine tuning 也 不一样。 刚才 不是 我们 一直 在 说 fine tune y 这个 事情 它 不太好 做, 它 会 让 之前 的 capability 会 变差。 现在 我们是 发现 现在 最好的, 就 我们 没有 办法 完全 处理 这件 事情。 但是 我们 现在 最好的 方法 就是 单独 训练 一个 expert, 把 它 加 到 现有 的 M O E 里面 去。 现在 看起来 这个 是 working 最好的, 虽然 还没有 完全 解决。
这个 是 说 去 取代。 比如说 我 为 理解 为 那 有点像 说 我 比如 基于 这个 海运 GPT, 然后 我 可能 把 好多个 专家 模型 把 它 做 起来, 做 一个 下一代 M O E 的 模型, 然后 它 其实 是 说不定 是 取代 或者说 超越 这个 GPT 的 一种 方式。
因为 它 不 只是 调 A P I 了, 用 A P I 还是 有 限制。 它 很有可能 就是说 它 可以 更 灵活 的 使用 这些 专家 模型 里面 的 一些 insight, 对 吧?
这个 还 挺 有意思, 这个 是从 模型 的 角度。 我们 刚才 很多 讲 o GPT 时候 的 都 是从 这个 应用 的 角度 去 聊。 刚才 其实 大家 聊到 了 几个 话题, 在 聊 多 模态, 还有 聊 刚才 agent 的 问题 的 时候, 其实 大家 都 提到 了 或多或少 或 少 的 提到 下一代 的 GPT 或者 能够 战胜 G P T 的 是什么。 因为 中国 尤其 在 这 一块 有 很多 追赶, 都 是在 很 努力 的 去 追赶。 所以 我 觉得 好 就 想 说到底 作为 追赶 者 来说, 他是 应该 是 复制 前任 的 路径, 还是 说 还是 说 他 其实 就 应该 从 我 从 day one 开始, 我 就要 尝试 一个 不一样的 路径。 要不要 鸿 博士 你们 聊 一 聊?
我们 可以 看看 美国 的这 几家 公司, deep mind s bag 和 OpenAI, 当然 also bac 是从 OpenAI 出来 的 一帮人 做 的, 所以 aspic 跟 open I 的 路线 非常 的 接近。 但 蒂普 曼 的 其实 跟 OpenAI 路线 一直以来 还是 有 不小 的 差异 的。 比如说 deep mind 会 去做 很多 跟 强化 学习 相关 的对, 也会 去做 生命科学, 比如 阿 这样的 工作。 并且 他们 并没有 真的 在 大 语言 模型 上 投入 那么 多 的 精力。 但是 签 了 GPT 之后, 我们 都 看到 了 deep mind 其实 很 紧张 的, 也 开始 往 这个 方向 去 投 更多 的 精力。
当然 不管 是在 工业界 还是 在 学术界, 都有 不少 人 想 去 弯道 超车 的。 各种各样 的 路径 都有 一些 很 著名 的 教授 其实 是 很 diss GPT 这 一套 cos q up 的 做法 的。 他们 有 自己的 一套 路线图 想 去 尝试 的那 即使 是在 工业界, 其实 也会 有人 想 去做 跟 GPT 不太 一样的 路线。 比如说 我 纯 靠 像 类似 于 阿法 z ero 这样的 路线图 是不是 能 做出来。 还有 一些 人 会 去 想, 我 一步到位 直接 去做 grounding, 对 吧? 比如说 我 用 大规模 的 智能 体, 比如 机器人 在 现实 世界 中 去 掌握 智能。 等等, 其实 都是 路线。
但是 当 有 很 多种 路线 的 时候, 最 明确 的 是 哪一个? 其实 还是 open I 这 一套 路线图。 因为 有 两个 因素。 第一 是在 很多很多 的 A G I 路线 里面, 它 他的 实验室 最 成功 的那 一个, 至少 截止 到 目前为止。 第二 就是 这个 领域 的 一些 基础, 不管 是 理论 还是 一些 技术, 或者 芯片 等等 各种各样 的 东西 都是 相当 ready。 至少 在 GP3.5 这个 level 是 相当 ready 的。
所以 我们 如果 是以 做出 A G I 的 目标 来去 看 这件 事儿 的话, 我 认为 应该 相当于 大部分 这个 保 还是 要 压 在 GPT 这个 路线 上。 这 是从 形式上 的 分析, 当然 我 做 这样的 判断 更多 的 还是 基于 GPT 这 背后 的 一套 非常 基础 的 原理。 我没有 看到 特别 大 的 blocker 或者说 技术 层面 的 破绽。 我 认为 这条路 是 可以 继续 往下走 很远 的。
比如说 像 context 的 length, 就是现在 OPPO R I 的 GPT4 已经 做到 了 32K 但 显然 人们 想要的 是 更多 的。 而且 你 如果 真的 想 抛弃 掉 fortune 的 这种 路线, 实际上 你 如果 能够 把 context Lance 变得 非常 长, 很多很多 场景 你是 不太 需要 find tune 的。 然后 这个 问题 其实 很难。 因为 现在 的 技术 我们 如果 想 增强 这个 context length 的话, 你的 内存 是一个 非常 大 的 挑战, 你的 算 力 的 复杂度 也是 一个 非常 大 的 挑战。 即使 我们 把 flash attention, 把 about transformer attention 等等 这样的 技术 全用 上, 我们 也 只能 做到 在 GPT4 的 32K 已经 是 比较 成熟 的 技术 里面 相当 了不起 的 长度 了。
但是 我 觉得 这个 还需要 更多 的 算法 层面 的 突破, 我们 要 做 的 更长 集成电路 层面, 当然 H B M 的 技术 应该 还有 很远 的 路 要 走。 这是 context Lance。 当然 还有 很多 其他 的, 比如说 网络结构, transformer 的 结构 等等。
你 有什么 预测 吗? 关于 county length, 就是你 觉得 是一个 线性 的 不断 的 提高 的 一个。 比如说 到 他 下一代 就是 128K 了, 还是 你 有什么 预测 吗?
这个 我没有 太好 的 预测, 这就是 一个 科学 问题, 而 不是 一个 工程 问题。 如果我们 能够 把 计算 的 复杂度 做成 跟 输入 的 长度 是 线性 的 关系, 我们 可以 增加 非常 多。 但 现在 是 N 方 或者 是 N 乘 根号 N 的 一个 关系。
能不能 展开 一下, 如果如果 是什么 能够, 这个 问题 会 比较 容易 解决。 By the way, 这个 关于 context length, 就是 提示 的 输入 跟 输出 这么 一个 长度, 今天 能够 输入 的 是 有限 的, 这是为什么? 黄 博士 说 如果说 你 能够 提示 的 如果 足够 多 的话, 那你 也 不存在 需要 去 微调 了。 很多 时候, 我 比较 好奇 的 就是你 你 刚才 提到 你 觉得 这 不是 一个 工程 问题, 这 主要是 一个 science 问题。 能不能 再 讲一讲? 因为我 觉得 里面 应该 有 一部分 是 工程 的 问题, 我 待会 可以 讲讲 我的 想法, 但是 你 先 讲讲 为什么 你 觉得 更多 是一个 science 的 问题。
对 呃, 当然 工程 上 如果我们 能够 搞 非常 大 的 内存, 非常 大 的 算 力, 当然 也是 一种 解决 路径 了。 我说 科学 上 的 问题 实际上 是 想 在 给定 硬件 约束 的 前提 下, 我们 能不能 更好 的 把 context lungs 给 skill up。 这是我 定义 的 一个 科学 问题。 但 在 这种 里面, 其实 像 deep mind 等等 一些 公司 也 去 以前 也都 做 过 尝试。 就是 我们 能不能 把 这种 context 的 输入, 也可以 认为 是一种 memory, 我 能不能 把 这种 memory 来做 压缩。
就像 人 一样, 其实 刚刚 发生 的 事情 可能 记得 是 很 清楚 的。 但是 再 往前 一周 以前 的、 一个月 以前 的、 一年 以前 的, 实际上 在 我的 记忆 里面 是 比较 稀疏 的。 是 相当于 也是 压缩 的 相当 深 的 一些 记忆。 类似 于 这样的 事儿 是不是 也可以 在 GPT 的 context loss 里面 也 这样 去做, 会有 这样的 一些 就 嗑 学家 里头 在 做 这样的 一些 尝试。 包括 最近 如果 大家 注意到 的话, 也有 相关 的 paper, 比如 有人 去做 一个 million 的 token 输入。 当然 我 我相信 他 一定 还有 很多 不成熟 的 地方。
工程 上面 其实我 我也不知道 工程 可以 做什么, 但是 我 觉得 这是 最终 还是 一个 性价比 的 问题, 就是 跟 cost 有 很大 关系。 更多 的 是因为 我知道 有 一家 至少 有 一家 大 模型 的 公司, 他在 给 企业 落地 的 时候, 他 就 提供 128K 的 那个 option。 我相信 他 之所以 能 做到 这一点, 是因为 他 给 人家 解决 的 问题 的 能够 产生 的 代价 比较高。 所以说 他 有些 trade off 跟 我们 通常 的 这些 chabot 的 trade off 是 不一样的。
对, 这里 我 可能 要 提 一下, 就是我 想要的 那种 很长 的 country lunch, 它 不是说 增加 十倍、 100倍, 而是 说 你 能不能 给我 把 我一个人 一生 所 看到 的 数据 全部 塞进去, 我 一家 公司 整个 历史上 的 数据 全部 塞进去, 我们 想要的 是 这样的 一个 浪子。
明白。
关于 这个 问题, 因为 我们 组 也有 一些 工作, 就是 focus 在 这个 就 stop 这个 contest net 的 问题。 然后 我 非常 同意 洪 博士 说 的这 现 这 是一个 科学 问题。 因为 在 学术界 里面 我们 都 没有 看到 非常 promising work。 触及 到 这个 本质 的 可能 有 一阵 时间, 可能 1年到2年 之前 有 很多 关于 这个 linear time attention to work, 大部分 来自于 google 和 deep mind。 其实 我们 发现 这些 东西 在 真正 用到 这个 language model 里面 的 时候, 基本上都 是 不 work 的。 然后 他们 犯 的 错误 其实 比较 低级。
就 比如说 我们 发现 这个 好的 大 模型, 如果你 能 打开 看 开源 的 模型, 它的 在 特定 输入 的 时候, 它 里面 那个 attention 它是 有 很强 的 pattern。 那就 说明 可能 好的 模型, 你 做 这个 indian time attention 的 时候, 它 需要 能够 至少 capture 这些 pattern。 如果你 这些 pattern 都 不能 capture 的话, 那 这个 nian time approximation 可能 就 不 太行 了。 我 就 发现 学术界 在 这个 方面 其实 花 的 力 特别 少 很少。 就是说 把 这个 模型 真正 打开 看, 我们 想要 加速 它, 但是 我们我们 不能 毁了 这个 模型, 对 吧? 我们 想 先 看 这个 模型 它 到底 想要 什么, 然后 我们在 确保 这个 模型 能 拿到 它 要 的 这个 结构 的 时候, 我们 能不能 做 加速。 我 现在 还没有 看到 很多 学术界 的 工作 在 这方面 挖 的 比较 深 的。
我想 如果 帮助 我们的 听众 朋友 更好 的 去 理解 说 为什么 我要 有 这么 长 的 context 那么 重要。 等会儿 我 就 是否, 比如说 二位 可以 举 个 例子, 就是说 因为 我们 没有 这个 能力, 使得 现在 大 模型 的 哪 一些 任务 上 他 可能 还 做不了, 或者说 哪些 任务 上, 我 比方说 像 一些 企业 里边 的 它的 应用 时候, 他 可能 说, 我, 我 通过 用 这种 embedding 的 这种 方式 来 去做。 那 这 两种 方式 它的 差别, 它 有可能 的 就 contest 带来 的这 这个 limitation 应该 怎么 去 理解?
我 有一个 例子, 比如说 GPT4 刚 出来 早期 的 时候, 我 不记得 是 OpenAI 还是 我们 微软 做了 一个 测试。 就是 他们 用了 全部 的 contact, 把 整个 美国 的 那个 叫 什么 艺考 叫 smile, 还是 我忘了, 就是 在那 类似 于 美国 的 这个 医生 执照 资格考试, 是 他们 把 整个 textbook 都 放进 了 context, 然后 这个 模型 直接 最 右下 的 就 solve 了 所有 东西。
慢点, 张译 博士 他 怎么 可能 把 所有的 这 本书 放到 放到 context 里面, 是因为 funning 还是 什么?
不 不不不 不就 就是 把 这个 整整 本书 给 token。 Ized 可能 不是 所有的 章节, 他们 可能 挑选 了 重要 章节。
但是 即使 是 重要 的 是 章节 也 不会 32K 就 够了。
32K 其实 挺 长 的, 是吗? 32K 可能 得 有 多少?
二十几万 的 单词。
两万多 相当于 二十多 K 的 单词。
对, 能 塞 不少 东西。 对, 但是 肯定 塞 不完整 本书。 一般 这种 考试 的 textbook 都 非常 厚 的。 他们 可能 是 做了 很多 那种 测 这个 模型, 它 本身 记得 什么 不记得 什么, 他们 把 不记得 了 以 这个 textbook 的 形式 放进去, 然后 就 基本 艺考 都是 满分, 而且 都是 新的 艺 考题 都是 满分。
对, 就 比如说 像 T H GPT, 现在 我 开 一个 对话, 他的 记忆 就 这么 多。 如果说 我 跟 G H B T 历史 所有的 对话 他 都能 记住, 这个 体验 会 完全 不一样。 几十年 前 这个 香浓 就 已经 想 过 这个 问题 了。 你 contact 越长, 你 对于 信息 的 理解 是 越 充分 的。
那 在 我 好奇, 比如 在 企业 的 这种 场景 里边, 你们 现在 感觉 说 在 就 我们 刚才 讲到 就是说 的确 如果 是 个人 你的 这个 memory, 你 需要 去 relay 到 很久以前 的 这个 事情。 那 如果 在 很多 企业 里边, 比如说 一些 分析 性 的, 这种 workflow 性 的 这种 场景 里面, 那 是不是 对于 这 contest 要求 相对来说 没有 那么 高?
我 觉得 可能 有 个 很 简单 例子, 比如说 现在 企业 大家 都 用, 比如 像 teams 或者 slack 这种 工具 对 吧? 然后 有 很多 channel 然后 里面 有 很多人 一直 在 说话, 但 可能 其中 有 一条 是 艾特 你的。 比如说 老板 要 让 我 做 个 什么什么 事情, 然后 突然 就 被 所有人 的 message 给 淹没 了。 虽然 等我 回去 找 也能 找, 但是 我希望 可能 会有 这个 模型, 它 能 提醒 我说, 你 让 老板 今天 早上 八点 跟 你说 了, 你 要 干什么, 明天 早上 之前 交。 是 需要 他 把 整个 channel 所有的 信息 都都 读完。 他 如果 漏掉 这 一条, 对 吧 你 他 没有 给你 提醒, 那就 完蛋了。
另外一个 角度 就是 因为 我们 谈到 contest 的 这个 事情 涉及到 memory 或者说 历史 的 记忆, 其实 可以 参考, 对, 或者说 有没有可能 就是 参考 人类 的 记忆。 其实 人类 记忆 不是说 把 过去 一生 当中 所有的 事情 都 记 在 脑海 里面。 他 一定 有 几个 特征, 一个 是 随 时间 衰减, 可能 最近 的 事情 他 记得住, 远 的 事情 记不住。 第二个 是 说 重要 的 事情, 或者 有些 提炼 性 的 结论性 的 事情, 或者 某个 东西 美好的 瞬间 记得住, 然后 其他 一些 细节 或者 别的 不重要 的 是 忘掉 了, 所以 这是 人脑 记忆 的 特点。
而 现在 我们 transformer 都 是用 比如说 很长 的 contest, 用 attention。 Attention 是一个 什么? 其实 就是我 去 选择, 也就是说 我 基因 一直 存在, 我是 存在 那儿 的, 我要 从 一个 很长 的 序列 里面 去 选择。 而 人脑 他 也许 就是说 可能 我 有 东西 就 记不住 了, 我只是 存 的 时候 我 已经 压缩 过了, 你 在 选 的 时候 你 可能 再去 选。 所以 这个 就 涉及到 一个 效率 的 问题。 就 比如说 我们在 transformer 模型 里面 能把 过去 历史上 的 一些 重要 的 信息 筛选 出来, 或者 是 有些 成绩 化 的 存储。 让 我们在 选择 的 时候 不要 那么 的 看 那么 多, 或者 计算 量 那么 大, 也许 是一个 可行 的 方式。 因为 现在 的 选择 还是 一个 暴力 选择, 所以 造成 了 现在 N 方 的 这种 复杂度, 导致 我们的 G D 是 没法 支持 这么 长 的 contest。
所以说 看看 下一个 能够 超越 open ad, 它 需要 从 更 fundamental 的 模型 架构 上。
做 一个 模型。 它 从 诞生 到 今天 并没有 基本 我可以 说 基本上 没有 变, 就是 会 每天 都 有一个 新 模型。 但是 你 仔细 看 它 可能 就是 微调 了 一点点。 然后 其实 也 很难说 这个 微调 对 最后的 到底 有什么 影响。 它的 backbone 是 没有 变 过 的, 特别是 marti a attention 它 本身 这个 东西, 所以 这个 其实 是 也是 非常 让人 震惊 的 一件 事情。 比如说 compare to 这个 computer vision, 他们 这个 模型 迭代 速度 是 非常 快 的, 就 会有 新的 东西 也 没 加进来。 但是 transformer 可能 是因为 这个 实验 的 成本 实在 太高了, 并 不能 支撑 这是 大部分 的 组 一直 在 尝试 新的 东西, 所以 导致 这个 模型 本身 就 形成了 非常 严重 的 路径依赖。
然后 在 这个 层面, 我 个人 不太 相信 说 这个 模型 它 本身 到底 是 到底 有 多好, 它 很有可能 就是说 80% 的 好。 但 如果说 我们 要 真的 要 突破 它 的话, 还是 有 很大 的 空间 的。 只不过 现在没有 太多 人 尝试, 至少 在 这个 模型 架构 的 方面 没有 太多 尝试。 对。
这 里面 有一个 原因 也是 eco system。 因为 大家 都在 做 transformer, 即使 transformer 不是 最好的, 就像 你说 不管 80% 还是 多少 好, 因为 大家 都 在朝 这方面 做, 你 很难 去。 你 如果 去 标新立异 做了 另外一个 东西, 写 了 一些 数据, 也 没多少 人理 你, 对 吧? 所以 这个 eco system 其实 是 蛮 重要 的。
就是 大家 可能 知道 有一个 open visor 是 other grad, 现在 当然 是 没人 用了, 但是 现在 这个 train 大 模型 都 是用 那个 叫 adam。 对, 但是 adam 的 前身 就是 build on 这个 ela grad。 然后 Elaine a 这个 东西, 它是 我的 princeton 一个 教授, 就是我 也是 我 老板 的 学生, 之前 的 学生。 然后 是 他 当时 这个 纯理论 的, 主要是 没 想说 把 这个 东西 用 给 这个 deep money, 他 就 发表 这个 paper。 然后 当时 有 很多 第一代 的 deep 能力 的 framework 叫 咖啡吧。 他们 就 不知道为什么 把 这个 给 写进去 了, 导致 了 所有人 都 觉得 阿拉 瓜 拉比 H G D 好, 所有人 都在 用 阿拉 那边 配备。 估计 已经 有 两三万 的 section, 但是 那个 paper 跟 deep 能力 一毛钱 关系 都 没有然后 甚至 还 影响到 到 今天 的 adam。 就是 如果你 被 一个 library 写进去 了, 对 吧? 这个 事情 比 本 这个 技术 本身 更 重要。
所以 我 觉得 这个 也 挺 有意思 的。 就是我 觉得 不 只是 人工智能 这个 领域, 其实 我们 看到 可能 浩博 也 比较 熟悉 的。 以前 我们 经常 聊 的 就 看 开发者 工具, 甚至 info t 很多 领域 也 不是 技术 最强 的那 一个 产品, 最后 就 赢得 这个 市场。 我 好奇 大家 有没有 考虑 过, 就是说 到底 怎么样 是 能够 真正 打造 好 所谓 的 这个 生态 的这 里面 有没有 一些 best practice 可以 总结 出来?
我 觉得 有一点 就是 易用性 很很 重要。 Pyto ch 他 认为 pyto ch 之所以 能够 后来居上, 能够 现在 基本上 超过 TensorFlow 的 有 很大 的 一个 原因 就是 易用性。 那你 再看 其他 领域 其实 也是 一样。 我是 做 网络 做了 很多年, 二十多年 前 有一个 很大 的 一个 争论, 就是 应该 用 T C P I P 的这 一套, 还是 用 A T M 的这 一套。 A T M 这 一套, 其实 你 从 学术界 的 角度 来讲, 这个 其实 有 很大 的 优越性, 或者说 有 一定 的 优越性。 至少 但是 后来 是 完败 给 T C P I P。 有一个 很 重要 的 原因 就是 T C P I P 很 很很 容易 理解。
还有 一点 是 开放性, 对 吧? 刚才 张毅 提到 的 一个 原因 也是 你看 他 放到 咖啡 里面 去, 相当于 就是 开放性 好了。 我 觉得 易用性、 开放性 这些 肤浅 所谓 的 肤浅 的 东西, 其实 是我 觉得 是 决定 了 很多 的 技术 的 发展。 在早 远 当年 windows 打败 O S 2, 那个 O S 就是 I B M 的, 也 不是 因为 技术 上 的 原因, 对 吧? 所以说 这种 例子 是 一代一代 的, 反正 我 觉得 历史 是在 不断 的 重演。
最后一个 话题, 我们 聊 的 接地气 一些, 就是 具体 的 这个 应用。 我们 怎么 把 这个 A I 的 技术 应用 到 我们的 日常生活 中。 因为 我们 现在 看到 很多 我们 刚 谈到 的 一些 项目 研究, 它 可能 都 还在 一个 demo toy 的 这个 阶段。 我 好奇 就 几位, 其实 像 洪 博士 还有 hobby, 其实 都在 这个 企业界 做了 很长 的 时间。 就 你们 现在 看到 实际 的 基于 GPT 这些 应用, 你们 看到 这 落地 的 情况 是 怎么样 的那 他在 这种 企业 里边 能够 去 落地 下来, 我们 现在 还 看到 了 哪 他 带来 哪些 新的 集会, 同时 又有 哪 一些 挑战, 要不然 会 聊聊 这个。
问题 太 广 了。 我 觉得 是 这 样子 的, 不 只是 这个 业内 的 人, 业 外 的 人 其实 也是 在 关注 ChatGPT, 这也是 上 新闻 头条 对 吧? 或者说 怎么样, 其实 也是。 但是 我 觉得 最终 他 在短期内, 我说 的 在短期内 可能 是 一两年 内。 对 一个 真正 的 一个 世界 500强的 公司, 或者说 全世界 最大 的 2000家公司, 这 可能 更加 有 代表性 一点。
从现在开始 到 一年 以后, 在 这 一个 阶段, 他 真正 去 用到 这个 GPT 的 技术, 用到 这个 大 模型, 不管 是用 各种各样 的 方式。 有 一种 方式 就是我 去 用 一些 新的 公司 的 服务, 像 jasper, my journey 这种。 另外 一种 就是我 把 这些 大 模型 的, 不管 是 概念 也好, 技术 也好, 带到 我的 公司 来。
我 觉得 其实 不多, 每个 公司 的 C E O 都在 说, 都在 想, 但 要把 这件 事情 做成 其实 不容易 的。 为什么 不容易? 因为你 想 这个 就像 我们 刚才 说 的, 最终 还是 要 微调 一点。 因为我 光是 靠 ChatGPT, 它 不能 告诉我 公司 我 下一步 发展 应该 怎么样, 对 吧? 我 下一个我 的 我应该 是在 市场 部门 应该 多招 三个人 还是 少 招 三个人。 这些 商业 决定 其实我 需要 有 大量 的 数据 去 喂给 他。 但 前提 是我的 我的 一个 公司 的 这个 数据 能够 打通, 能够 是一个 数据 驱动。 然后 要有 这么 一个 去 一个 一个 conviction, 应该说 然后 还要 有 一定 的 执行 能力 去 把 这件 事 做做 起来。
其实我 看 了 不少 公司, 包括 我自己, 我 最近 也 换 了 公司, 或者说 我 其实 跟 很多 的 大公司 都有 联系。 其实 这件 事情 是一个 很难 做 的 一件 事情, 刚才 说 的 还 只是 一个 痛点, 还有 痛点 我还没 说。 就是 像 这种 compliance 来, 或者说 是 比如说 GPT 现 能够 写 code, 至少 一些 简单 的 东西 写 的 不错 了。 但 绝大多数 的 财富 五百 的 公司, 它是 不会 让 chat P T 来 给你 写 code 的。 为什么? 他 都 不知道 这个 compliance 就是 合规性, 以后 是不是 有 法律, 上面 会不会有 纠纷, 把 这些 因素 都 加起来。 我 觉得 其实 去 adopt 其实 还是 一个 蛮 长 的 一件 事情。
但是 还有一个 我们 提到 的 相对 来讲 是 最 exciting 的, 其实 就是 一个 相当于 是 GPT native 的, 或者说 大 语言 模型 原生 的 公司 对 吧? 这些 公司 都是 这个 时代 生成 的, 这些 公司 我 觉得 他们 会 颠覆 很多 我们 今天 知道 的 那些 incumbent。 你们 可能 都 知道 一个 数据 对 吧? 比如说 一个 财富 五百 的 公司, 他 大概 每隔 二三十年 就 大约 就是 轮换, 或者说 大致 就 轮换 一圈。 也就是说 30年 前 的 财富 500的公司 其实 没 几家 今天 还在 财富 500这个 轮换, 其实 是在 过去 50年、 60年, 这个 速度 是 越来越快。 我 觉得 在 AI 这个 时代, 在 这个 大 模型 这个 时代, 这个 轮换 可能 会 更 加快。 完全 有可能 过了 15年, 不需要 20年、 30年、 15年。 绝大多数 今天 我们 知道 的 财富 五百 的 公司, 就 不在 财富 五百 的 里面 了。
也 非常感谢 哈威 的 这个 分享, 非常 的 全面。 我 觉得 这个 是不是 有点像 当年, 云计算 刚 起来 的 时候, 也是 大家 觉得 说 这 我 怎么 可能 把 数据 放到 云上? 就 这个 大公司 都 不愿意 去 尝试, 都是 一些 小 公司, 这 clone native 的 公司, 慢慢的 起来。 但是 然后 到了 现在, 过了 时隔 了 十几年, 这些 大 的 公司 才 开始 才 慢慢 去 到 的 这个 云计算。 就现在 我们 看到 了 很多 不用 的 理由, 是不是 随着 这个 时间 的 演进, 其实 慢慢 也许 未必 成为 最终 的 一个 阻碍 了。
对我 觉得 你 提到 的 一个 原因, 其实 每 一代 我们 其实 前面 也 讲 到了, 其 每 一代 都是 一样的。 之前 互联网 也是 一样, 对 吧? 你 那个 互联网 出来 了, 出现了 一个 M 长。 但是 当 时候 的 在位者 是 walmart, right? 然后 walmart 是 怎么 应对 的? Amazon 是 怎么 来 用 好 互联网 这个 技术 的? 然后 云计算 也是。 在位者 他 总会 有 一堆 的, 其实 是 原因, 或者说 理由, 或者 借口。 不管 你怎么说, 相对 来讲 比较 难 一点, 这也是 很 自然 的。
你说 对于 一个 要在 A I 这个 领域 的 一个 创业 公司 来说, 我要 做 A I 的 应用 或者 什么的。 但是 对 他们 来说, 既然 像 浩 伟 刚才 说, 反正 这 一些 本身 这些 财富 五百强 1000强的 公司, 你 首先 也 不是 本身 就 不是 新技术 的 earlier adopter。 而且 你 可能 说不定 你 这个 公司 未来 也要 被 改变。 那 是不是 对于 一个 创业 公司 来说, 我应该 在 这个 时候 我应该 focus 在 我的 用户群, 应该 是 这些 愿意 接受 改变 这种 中小型 的 或者 全新 的 公司, 而 不要 太早 的 去去 打 这些 大公司 的 主意。
肯定 是 有 一定 道理 的。 就像 amazon 当年 亚马逊 的 云计算 部门, 它 前 五年 基本上都 是 或者说 绝大多数 从 数量 上 来讲, 至少 他的 客户 都是 star 的。 可能 也就 只有 两三家 公司 是 稍微 体量 大 一点 的, 绝大多数 的 客户 都是 start up。 对, 从 这个 角度 上 来讲 是, 但是 有一点 你 也要 稍微 谨慎 一点 的, 就是 start up 能够 给你 带来 的 价值, 除非 这个 startup 是 往上走。
几个 硅谷 的 公司, 他他 的 成长 是因为 他 卖给 了 uber 跟 A M B M B。 在 早年 后来 uber A M B M B 变成 大公司 了, 他 也 变成 大公司 了 对 吧? 像 对 tailor 就是 其中 的 一个 example .
A W S 也是 跟着 L B N B 对 吧?
就是说 你是 有可能 的, 但是 并 不是说 这 是一个 easy pass, 因为 也有 很多 公司 就 跟着 小 公司, 就 客户 都是 小 公司, 其实 也 没 做 起来。 但是 这 我 只能 说 这 是一个 possibility。
我 也要 听听 洪 博士 你的 这个 看法, 就是 让 一个 现在 企业 对于 要 用 一个 A I 的 这些 应用, 他们 还会 提出 哪 一些 需求, 尤其 是从 你们 公司 过去 这 做 给 企业 做 这种 大企业 做 AI 的 落地 来看你 觉得 有 哪 的 经验 是 可以 复用 到。 现在 我们 谈 的 这个 A I 的这 新一波 浪潮 中。
我 还是 非常 认同 徐 老师 刚才 那些 观点 的。 这件 事 就 有点像, 可能 20年 前 大家 都在 做 信息化, 就 大家 要 做 业务流程 重构。 现在 有了 A I 以后, 其实 拿着 A I 其实 也是 要 重新 去做 一遍 A I 的 业务流程 重构 的那 要 做 这样的 流程 重构, 实际上 你 既要 理解 A I 又要 理解 这个 业务流程。 所以 这个 时候 其实 是 需要 一个 施工队 这样的 角色 存在 的。 这个 施工队 就是说 他 能够 既 理解 A I 又 去 愿意 下沉 到 每一个 复杂 的 业务流程 里面 去去 看我 怎么样 把 类似 于 GPT 的 技术, 或者 是 更 复杂 的 一些 GPT, 加上 各种各样 的 model 或者 A P I 的 技术 做成 一个 的 解决方案。 来 帮助 这些 互联网 企业 或者 更加 传统 的 企业 来完成 A I 的 业务流程 重构, 我 认为 现在 应该 是一个 缺位 的 机会, 就是 专门 很 擅长 做 这件 事儿, 并且 愿意 下沉 到 一个 的 企业 里面 去做 这件 事儿 的, 就是 企业 服务 里面。 喜羊羊 下沉 下去 还是 挺 难 的, 尤其 在 中国 会有 普遍 的 定制 化 和 私有化 的 需求 存在。
从技术上 讲, 在 开源 模型 的 基础 上去 做 推 这 领域 的 调 优。 对于 以前 那些 做 A I 企业 服务 的 公司 来讲, 技术 门槛 和 研发 成本 其实 是 不算 高 的这 里面 最大 的 风险 应该 还是 在于 通用 模型 的 进步, 应该 会 迅速 提升 在在 常规 场景 的 表现。 比如说 我们 看到 的 从 GPT3.5 到 GPT four 发生 的 事情。 在 法律 或者 医疗 的 一些 场景, GPT four 直接 就 超过 了 以前 所有的 有 专用 的 模型。 当然 的 话说回来, 如果 有 足够 强 的 数据 壁垒, 其实 还是会 保持 就 这种 定制 化 的 模型, 还是会 保持 相当 长时间 的 竞争 优势 的。 只是 这个 市场 可能 会 逐步 的 会 被 蚕食, 然后 最后 剩下 的 主要 差异化 优势 可能 就是 定制 化 和 根据 业务流程 重构 的 过程 所做 的 私有化。
所以 这个 其实 又 跟 我们 之前 谈 的 一个 话题 很 像, 对 吧? 是不是 以后 企业 都会 倾向 于 自己 用 一个 本地 的 大 的 model, 可能 它是 基于 某 一个 开源 的 模型 去 改造 的, 还是 说 以后 大部分 企业 都会 用 open I 这样的 一个 这种 A P I 的 这种 形式。
这里 会有 一个 关键 的 因素, 就是 在 这个 差异化 的 场景 里面, 到底 有 多少 是 跟 智能 相关 的, intelligence 相关 的。 其实 一个 更强 的 foundation model, 它 相对于 一个 专用 的 model, 更多 的 是 它的 智商 更高。 那 这个 智商 到底 对于 这个 场景 是不是 必要 的? 如果不是 必要 的那 仿佛 是 model 就 不是 必须 的。 我是 这样 来看 这个 事儿。
这个 话题 其他 几 我 好奇 其他 几位 是 怎么看 的。
我 觉得 这个 infrastructure 要有 革命性 的 提升, 我 觉得 才有可能。 现在 其实 大家 谈到 这个 GPT4, 虽然 好像 所有 都在 谈, 但是 大家 这个 用 的 很少。 对于 这个 普通用户 的话, 好像 现在 还有一个 每分钟 还是 每 小时 25个 query 的 限制。 这就 导致 这个 模型 其实 即使 很强, 也没有 办法 现在 放到 这个 日常生活 当中 去。 即使 在 微软, 就是 我们的 G P U resource 就 为了 支撑 这个 包括 bean 包括 open I 包括 各种 GPT model 的 inference a 那边 其实 已经 非常 吃紧 了。
然后 再就是 市面上 怎么 买到 更多 的 A 1版或者 新的 H 100。 现在 所有的 这个 东西 都是 based on 英伟 达 一家 公司, 然后 英伟 达 based on 台积电, 台积电 based 阿 斯迈尔, 这是 一环扣一环 的, 想 提升 产能 非常 的 难, 这 不是说 有钱 就能 买 得到了。 现在 这个 问题, 而且 是 中国大陆 还 面临 着 还 面临 A 100的禁运, 对 吧? 我不知道 这个 事情 有没有 缓和。 最近 所以 大家 想 用 好 这个 模型, 广泛 的 用 的话, 我们 必须 得 把 它 做小, 或者 是 把 它 做 快把 它 做 的 更便宜。 因为 现在 这个 已经 到了 人类 的 整整 个 整个 地球 都 拿不出 足够 的 100兆, 所有 地球人 使用 的 这么 一个 奇怪 的 场景 了。 一年 之前 没有人 会 想得到。 然后 之前 我 听说 他们 甚至 还在 微软 在 给 该 提供 建 一个 新的 data center 的 时候, 他们 还在 考虑 要 放在 美国 的 哪个 州。
因为 好像 大部分 的 州 的 电网 并没有 办法 支持 这么 一个 强大 的 电脑 散 腿。 这里 到了 一个 人的 工程 能力 的 问题 的 层面 了。 所以 对 希望 很快 就能 解决 这些 问题。 比如说 用能 不能不 用 G P U? 如果 这个 模型 已经 做好 了, 我们 能 不能用 F P G A? 我们 不需要 改 模型 的 情况下, 能 不能用 F P G A 这 一系列 的。
对我 觉得 甚至 在 这个 硬件 层面 会有 一波 新的 start up。 专门 就是 做 这个 hardware dedicated to transformers, 这个 就是 为了 serve 这个 model, 它 并 不是说 用 这个 model。 但是 我 觉得 这个 潜力 也 很大, 因为 毕竟 现在 市面上 真的 只有 英伟 达 这 一家 公司, A M D 也有, 对, 但是 A M D 相对 份额 比较 少一点。
其实 讲到 最后 一 关于 这个 应用 的 这个 角度, 我们 现在 也 看到, 其实 各种 不论是 V C 的 这个 hype, 还是 start up 创业 的 热情。 的确 这感觉 很 像 当年 的 移动 互联网。 刚 开始 时候 出现 涌现出 了 无数 的这 公司。 尽管 他们 很多 当时 看上去 都 像 一个 都 还 像 一个 玩具 一样。 在 这个 时候 我 就 想 听听 hobby 的 这个 建议。 就是我 相信 我们 听众 里边 也有 很多 我想要 做 AI 创业, 或者 正在 做 AI 这 一块 创业 的 同学, 就是你 你 会给 大家 怎样 的 这个 建议, 怎样 去 在 这个 时候 如何 去 思考 我的 这个 产品 go to market 这个 壁垒, 还有 我的 这个 产品 的 一个 长久 的 竞争力。 浩 伟 你 会给 大家 怎样 的 建议?
莫妮卡 同学 如果我 知道 了, 明天 就 自己 去 做了。 我 觉得 是 大概 思路 我是 这么 想 的。 如果说 有什么 想法, 就是现在 的 应用? 就是 我们 能够 看到 的 应用, 包括 那些 chat P T plugin 的 应用, 不就是 买 机票、 订 饭、 送菜 对 吧? 这种 可以 做 的 更加 方便 一点。 但 我 个人 认为 如果 只是 这些 应用, 订 饭 送 菜饭、 买 机票 的 提高 这些 效率。 那 我 其实 都 不知道 我们 做 这个 AI 这件 事情 是 利大于弊, 还是 弊大于利。 就像 刚才 张毅 说 的, 其实 我们 现在 是用 多大 的 力量 训练 这个 模型, 然后 A I 还有 很多 的 potential 的 bad consequence。 我 个人 是 希望 或者说 我是 比较 乐观 的, 就是 A I 能够 带来 的 不止 是 说是 一些 我们 今天 看 得到 的 这些 事情 的 效率, 那些 当然 也是 需要 也是 很很 不错, 而是 去 改变 一些 认为是 mission possible, 或者说 以前 觉得 变化 很慢 的 一些 事情。 也 说穿 了 就是 到 我们 这个 I T 领域 之外 去。
对 这个 地方 我一直在 想, 就是说 可能 已经 有人 做了, 特别是 法律 领域。 因为我 的 我的女朋友 是 律师, 就是我 发现 法律 领域 其实 是一个 天然 壁垒 特别 高, 但是 效率 特别 低 的 领域。 法律 公司 倾向 于 养 很多人, 但是 干 很少 的 活, 而且 收 很高 的 费。 如果 有 ChatGPT 对 吧? 我 开 一家 法律 公司, 我 找 有有 牌 的 律师, 但是 我 只顾 大公司, 可能 10分之1 的 人。 但是 我 训练 我 所有的 员工, 让 他们 熟练 使用 GPT, 就是 帮 他们 不用 做 很 fancy 的 东西, 就 做 比如说 日常 的 这个 文件 处理, 让 他们的 效率 提高 十倍, 对 吧? 我 觉得 这个 是 可能 有可能 的, 然后 我们 收费 很低, 这就是 一个 社会性 的 变革, 这 可能 会 改变 这个世界 的 法律体系。 可能 我想 的 比较满意 务, 但是 我 觉得 这 可能 就是 打破 这个 社会 壁垒, 是 这个 新的 技术 可能 对 人类 最大 的 价值。
我们 同意 微软 的 C E O 萨 提尔 的 一句话, 就是 大家 都在 说 这个 program 的 job 是不是 会 被 替换 掉? 他 觉得 不会, 他 觉得 最终 我们 增加 的 是 对 我们 这个世界 的 digital currency, 是 会 增加 所谓 的 programmer 或者说 马 马工 的 能力。 其实 就是 把 一个 物理 世界 的 事情 把 它 给 转换, 成就 数字化。 然后 数字化 在 不断 的 优化。 这些 事情 在 有些 公司, 在 大厂 已经 是 司空见惯 的。 但是 其实 除了 这些 I T 领域, 其实 这件 事情 是以 比较 低效 的 缓慢 的 在 往前走。
如果说 我们 这个 A I 自动 写 程序 对 吧? 比如说 举 一个 例子, 自动 写 代码 这一点 增加 了 digital currency, 增加 了 世界上 千千万万家 公司 的 digital currency, 会不会 对 他们 做 事情 的 效率 提升, 然后 他们 做 事情 效率 提升 又 在 他们 每一个 行业 的 那个 就是 本来 认为 天花板 在这里, 但是 我 因为 做 事情 的 效率 提升 了 十倍、 20倍以后, 然后 我的 天花板 也 在 往往 上 走。 这是我 觉得 是一个 比较 顺理成章 我 去 能够 思考 的。 包括 在 生命科学, 在 医疗 科技, 在 生物科技, 我 觉得 是 比较 hopeful 的。
现在 你们 对于 AI 的 未来, 你们 自己 个人 觉得 最 让 你们 觉得 兴奋 的 一个点 会 在哪? 你们 现在 最 关注 的 几个 方向 的 这个 研究会 在哪 一些 方向? 要不 还是 从 谭 序 开始。
可能 有 一个点 就是 要 有一个 理想主义 和 现实主义 的 这个 区分。 我 往往 在 讨论 A G I, 我 觉得 更多 是在 强调 理想主义, 我们 能不能 达到 完全 的 人类 智能。 但是 你看 现在 其实 即使 G P4 这个 模型 没有 完全 实现 一些, 但是 它 已经 解决 了 大部分 的 问题, 已经 产生 了 非常 大 的 影响, 而且 帮 到 各行各业 的 提升 效率。 这 在 这种 情况下, 我是 是不是 达到 了 A G I 其实 已经 没有 那么 大 的 重要 的 关系 了。 只要 我 能 提升 现在 的 一些 生产 效率, 我 觉得 目的 已经达到 了。 我 觉得 可能 在 未来 半年、 一年 或者 好几年 之内, 我 觉得 现在 沿着 现在 大 语言 模型 的 方向 往下走, 应该 是 能够 变得 更加 的 第一个 是 多 模态, 第二个 是 和 世界 交互, 第三个 是 偏向 action, 或者说 机器人, 或者 自身 的 人工智能。 这种 方向 往 下 应该 会有 一个 大 的 突破。
那 我们 把 人的 智能 可以 做 一个 拆解。 首先 是 大脑, 大脑 里边 语言 又又 是一个 最 核心 的 能力, 那 是人 区别 于 其他 动物 的 一个 关键点。 现在 的 语言 模型 看起来 把 大脑 的, 尤其是 语言 方面 的 一些 能力 做 的 还 非常 不错 了。 往 下 我们 就要 接入, 比如说 眼睛、 耳朵、 鼻子嘴巴 以及 我们的 手和脚, 还有 我们 和 这个世界 的 互动。 沿着 这个 方向 往 下去 发展, 一定 是 能够 丰富 我们 对于 A G I 的 能力 的 体现。 同时 也 给 我们 创造 了 足够 多 的 机会, 让 我们 去往 下去 开拓 或者 去 尝试。
好。
张毅 我们 可能 关注 的 问题 更 学术 一点。 就是说 怎么样 更好 解决 大 模型 现在 的 这些 问题。 如果 能 解决 好 这些 问题 之后, 应该 它 能 有一个 质的飞跃, 就是 在 现在 的 基础上, 甚至 还有一个 质的飞跃。 那个 是什么 呢? 我们 现在 都 不好 假设, 我们 也 猜 不到 那是什么。 比较 希望 想 看到 的 就是 在 未来 的 很 短时间 内, 大家 能够 逐渐 打开 这个 大 模型 训练 的 黑盒。
就现在 大家 对 这个 训练 的 各个方面 的 探索, 其实 还是 处于 非常 初级 的 阶段。 基本上 就是 把 所有 我 能够 有的 数据 全 扔 进去, 然后 就 用 所有的 卡 混 在一起 训练。 训练 完了 之后 微调, 然后 可能 再加上 R L H F。
但是 我 觉得 有一点 非常重要 的 是, 到底 什么样 的 数据 我 先 扔 进去, 而且 有没有 顺序。 比如说 大家 口口相传 的 时候, 发现 有一个 秘密, 就是 他们的 模型 是 现在 代码 上 训练 的, 然后 再 在 这个 通用 的 N L P 文本 上 训练 的。 我 觉得 这个 非常 make sense。 对, 到底 是不是 这样 我也不知道, 但是 感觉 学术界 还 对 这个 东西 缺乏 探索。 然后 我 觉得 这个 东西 如果 都 摸清楚 了, 以前 我们 可能 需要 好几 去年 的 token。 可能 如果我们 浓缩 好了 数据 之后, 可能 只需要 hundred lion 或者 甚至 几十 bill, 然后 模型 可能 也可以 变小。 对 那个 时候 的话, 大 模型 可能 会 变得 更 有用, 然后 在 更多 的 公司 会 加入 进来, 然后 更 多人 也会 愿意 使用。
非常 有意思 inside, 那 洪 博士 来 聊 一 聊。
首先 我 觉得 今天 在座 应该 somehow 不管 是从 什么 路径 推导 出来, 应该 对于 A G I 会 到来 这件 事儿 没有 太多 的 怀疑。 然后 在 中国 其实 跟 美国 还是 会有 一点 差异。 因为 中国 起步 还是 有点 晚, 我们 还是 一个 追赶 的 太多, 所以 没有 太多 人 去 关心 一些 前沿 的 主要是 研究。
但 实际上 在 A I 领域 是 有 很多很多 的 前沿科学 问题 需要 研究 的, 包括 模型 本身 的, 比如说 数据, 张颖 也 提到 了 数据 到底 应该 怎么用。 现在 语言 的 数据, 我们是 先 把 它 去做 token ize, 对 吧? Token ize 其实 本身 就是 一种 压缩。 压缩 了 以后 我 再 用 GPT 进一步 的 做 压缩, 我 获得 了 智能, 这 是一种 用法。 那 对于 图像 我们 到底 应该 怎么用? 对于 视频 我应该 怎么 去做 token nize, 还有 对于 其他 模态 的 数据, 这个 是 不知道 的。
然后 还有 刚才 我们 聊到 的 代码 数据 跟 文本 数据, 其实 它 都是 知识。 代码 数据 可能 是 包含 了 一些 任务 的 解决 和 逻辑 推导 等等。 其实 这些 数据 到底 该 怎么 精细 的 去 用, 现在 的 研究 是 没有 那么 深 的。 因为 过去 很长 的 时间 里面, 以 open I 为首 的 公司 其实 还是 在 摘 那些 低垂 的 果实。 到了 现在 这个 时间点 上, skill up 这件 事儿 已经 变得 越来越 困难 了。 我们是 需要 静下心来 去 看一看 这些 更加 精细 的 科学 问题 的那 就 包括 模型 本身 的 数据, 也 包括 算法, 有没有 比 transformer 更好 的 架构, 有没有 更好 的 去 解决 长 记忆 的 问题 的 方法。
还有 一些 很 重要 的 就可 解释性 的 研究。 我们 得 知道 什么东西 是 记忆, 什么东西 是 泛化。 然后 在 什么 阶段 模型 会 倾向 于 去 记忆, 在 什么 阶段 开始 去 做饭。 然后 记忆 的 水平 和 泛化 的 水平 在 我们 训练 的 每一个 阶段 它是 怎么 变化 的, 我们 得 去 理解 训练 好的 这个 模型。 当我们 理解 了 以后, 我相信 我们会 看到 很多 新的 提升 的 手段。 我 举 个 例子, 我 最近 应该看到 一个 工作 是 说 现在 GPT 很 擅长 英文, 对 吧? 那 对于 法语, 其实 它是 有 专门 的 神经元 处理 跟 法语 相关 的 一些 东西 的这 是 很 有趣 的 一些 可 解释性 的 研究。 虽然 是在 toy model 上去 做 的, 但 我相信 如果 未来 在 更大 的 模型 上去 做, 我们 可能 会 发现 很多很多 有趣 的 可 解释性 的 现象。
然后 再 一个 是 对齐 alive, 在 中国 关注 可能 非常少, 但是 在 全球 范围内 其实 讨论 是 很多很多 的。 包括 一些 知名 的 AI 的 科学家 也 在 讨论 这件 事儿。 怎么样 能够 让 这么 强 的 模型 按照 人的 旨意 来 显示, 不 只是 去 解决 一些 幻觉 的 问题, 还有 未来 可能 会 出现 的 一些 怎么 去 控制 模型 的 问题。 因为 那个 基点 到达 人类 智能 水平 的 或者 叫 认知 水平 的 基点, 是 很有可能 不会 花 太 长 的 时间 就能 达到 的那 超过 那个 机电 以后, 我们 还能不能 控制 它, 现在 其实 是一个 未知数。 不过 我们 现在 就 需要 去 很大 精力 做 这个 事儿 了。 所以 我 认为 在 最前沿 的 科学研究 上, 需要 把 可 解释性 和 对 齐放 在 非常 高 的 优先级 来做, 这是 模型 本身。 然后 模型 以外 也有, 比如说 我们 需要 更好 的 模型 的 存储, 对 吧?
H B M 现在 应该 到了 第三代, 那 未来 tip ly 的 技术 有没有可能 把 摩 摩尔定律 更快 的 往前 推? 然后 机器人 的 技术, 我们 刚才 聊到 一些 最深 对 吧? 当我们 把 GPT 的 脑子 做好 以后, 怎么样 能够 有一个 最深 的 机器人 来解决 各种各样 的 问题。 比如说 自动驾驶 汽车, 比如说 家务。 机器人。
还有一个 很 重要 的 就是 A I for science。 其实 science 人类 的 科学家 是 比较 少 的, 顶尖 的 科学家 就 更 少。 如果 一个 A I 成为 科学家 的 助手, 甚至 说有 超过 科学家 的 一个 认知 水平, 它 是否能够 快速 的 推进 我们 科学 的 进步? 比如说 在 生命科学 领域, 材料 领域 等等。 那 目前 的 A I 技术 它 就有 变相 从 人类 知识 里面 去做 蒸馏。 他在 学 人类 的 知识, 人类 在 互联网 上 留下 的 知识。
那 人类 有 多少 知识, 其实 他 就有 多少 智能。 那 怎么样 让 他 能够 有 获得 更多 的 智能 呢? 所以 就 需要 人类 还是 要在 科学 上 有 更多 的 突破。
比如说 去做 更好 的 观测 仪器。 阿尔法 四 为什么 能 做出来? 是因为 我们 人类 科学家 发明 了 去 观测 蛋白质 结构 的 仪器。 然后 我们 知道 了 一些 氨基酸 序列 怎么 就 变成 了 这种 蛋白质 的 折叠。 有了 这些 数据 以后, 我们 才 做出来 了 ala fold 这样的 算法。 其实 还是 很 依赖 人类 的 知识 在 里面 的, 所以 我 就 非常 希望 可以 有 更多 的 人 参与 去 研究 A I 或者 是 把 A I 用于 解决 科学 问题。 这样 我们 可以 拿到 人类 可能 有史以来 最大 的 福利, 就是 一个 可以 无限复制 的 很强 的 人工智能, 从而 推动 人类文明 的 进步。
最后 听听 郝伟 聊 一 聊 你 对 A I 未来 的 关注点 和 让 你 exciting 的 地方。
从 我的 角度 来讲, 其实 就是 这个 未来 没有 天花板。 因为 我们 知道 AI 无非 就是 算法 算 力 数据, 对 吧? 刚才 张毅 博士 也 说 了, 那个 数据 上面 不 只是 一个 暴力 的 丢 进去, 有可能 sequence 来, 有可能 curation 各种各样 的 方式 方法, 其实 还有 很多 的 事情 要 做。 从 一个 算法 上面 来讲, 其实 我们 刚才 也 讨论 了 transformer model 大 模型 其实 有 很多 的 可以 去 提高 的。 然后 从 算 力 的 角度 来讲, 刚才 我们 也 提到 了 NVIDIA, 它的 从 V 100到A 100到现在 的 H 100, 每 一代 的 提升 都是 很 显著 的。
好, 很高兴 今天 跟 大家 聊, 希望 今天 大家 有 个 好的 这个 周末, have a great weekend.
好 谢谢 好 谢谢 大家。
谢谢 谢谢 谢谢 好。
谢谢 几位, 拜拜。
这 期 what nex 科技 早知道 就 到 这里 了。 听 完 之后 如果你 有 任何 的 想法, 欢迎 在 评论 区 里面 给 我们 留言, 我们 每 一条 都会 认真 的 看。 如果 你喜欢 我们的 节目, 请 记得 给 我们 五星 或者 好评, 分享 给 更多 的 朋友, 也会 对 我们 非常 有 帮助。 你 也可以 单独 写邮件 给我, 邮箱地址 是 听 T I N G at 声 点 F M, 我 都会 一一 回复。 同时 公众 号 和 微博 也可以 搜索 生动活泼 声 是 声音 的 声, 节目 相关 的 更多 信息 会 在 公众 号 里 出现, 微博 和 公众 号 都 会有 不定期 的 福利 给 到 大家。
如果你 想要 跟 我们 更加 紧密 的 讨论 和 分享, 或者 是 想要 认识 和你一样 有 求知欲 的 新 朋友, 可以 加入 我们的 微信 群。 进入 听众 群 的 方法 是在 公众 号 文章 中 扫 码 添加, 或者 是 公众 号 后台 回复 科技 早知道, 即可 获取 邀请码。 期待 你的 加入, 我们 下期 见。