嗨 大家好, 开始 的 时候 我们 硅谷 101联合 B 站 给 听众 发 一波 福利, 带 引号 的 福利 是什么 呢? B 站 精心 整理 的 AIGC 的 视频教程 合集, 最近 生成式 A I 的 发展 实在是 太快 了, 我们 一档 节目 也 只能 讲清楚 其中 很小 的 一部分。 但是 B 站 做了 一个 系统 的 讲 AIGC 的 教程 合集, 也 邀请 我们 来 给 大家 推荐 一些 专业 有用的 视频 去 加入 这个 合集。 想到 我们的 节目 有 很多很多 关注 技术 的 同学, 所以 我是 推荐 了 亚马逊 前 首席 科学家 李 沐 的 专辑, 跟 李 沐 学 A I 大家好, 我是 李 沐。 在 过去 五年 里面, 他在 B 站上 有 很多 从 论文 层面 的 解读。 因为我 自己 一直 相信 去 读 一手 材料 是 最好的 认识 一件 事情 的 方法。
同样 我也 推荐 了 自己的 视频, 就是 我们 讲 ChatGPT 的 特辑, 是 聊 OpenAI 黑手党 一起, 除了 OpenAI 还有 这帮 出逃 的 A I 叛徒, 将 重塑 人类 的 未来。 ChatGPT 背后 的 公司。 OpenAI 从 2015年 成立 以来, 已经 有 三十多个 早期 员工 集体 叛逃, 自己 辞 出来 单干。 那么 这些 大家 也可以 去 合集 里面 看一看 我们的 这 期 视频。 除此之外, 这个 合集 还有 AIGC 的 发展史 趋势 以及 商业 竞争 的 部分, 可以 帮助 大家 非常 系统 的 去 了解 和 认识 A I 另外 也有 很多很多 的 实用教程, 比如 大家 都 很感兴趣 的 怎么样 用 mid journey 去 画画, 怎么样 用 notion A I 去 写作。
也有 A I 绘画、 语音 合成、 编程 办公 等 各种 实用教程 的 大 合集, 可以 说 内容 是 非常 的 详细 完整。 为什么 我说 它是 一个 带 引号 的 福利 呢? 因为我 最近 其实 一直 有 在 收到 一些 听众 的 来信, 很多人 很 关心 说 这 一波 AI 到底 会不会 取代 我们的 工作, 如何 在 AI 时代 不 被 淘汰? 我的 答案 其实 也很 简单。 了解 他, 拥抱 他, 成为 最先 会 使用 A I 的那 一拨 人。 所以 我会 把 合集 的 链接 放在 我们 播客 的 show note 中, 感兴趣 的 同学 可以 点击 去 看一看。 大家 也可以 直接 在 B 站上 搜索 A I 工具 大法, 来 查看 A I C 的 视频 合集。
另外 我也 推荐 一下 我们 硅谷 101在B 站上 的 视频, 我们 讲 了 很多 跟 AIGC 相关 的 内容。 比如说 我 刚刚 推荐 的 OpenAI 黑手党, 还有 谷歌 与 微软 关于 ChatGPT t 的 世纪之战, 以及 ChatGPT 的 风险 争议。 大家 感兴趣 也可以 去 看一看。 这 期 我们 就 来 聊 一下 OpenAI 的 早期 成长史, 跟 我们在一起 的 嘉宾 是 A I 研究者 金范。 Hello jim, 你好 hello hello jan.
你好。
jim. 今天 也是 在 非常 忙 的 时间 里面 来 抽时间 参加 我们的 节目 录制。 Tim 的 大概 背景, 我看 你 之前 是 斯坦福 计算机 的 P H D, 也是 李 飞飞 的 学生。 早期 在 OpenAI 和 google A I 都 工作 过, 也 算是 OpenAI 的 应该 是 第一个 实习生。
对, 第一届 实习生。
对你 加入 OpenAI 的 时候 是在 2016年。 对。
2016年 的 暑假 的 时候。
可不可以 跟 大家 讲 一下, 为什么 在 那么 早期 的 时候 会 选中 OpenAI?
我 觉得 当时 也是 有些 朋友 推荐, 那时候 看到 OpenAI 他们的 科学家 创始 团队 特别 厉害, 所以 当时 就 也 被 他们 吸引 过去 的。 那个 时候 的 OpenAI 差不多 有 30个人 左右, 基本上 每一个人 都是 响当当, 就 名声 特别 响 的 大牛。 比如说 当时 有一个 good fellow 是 gan 的 发明人, 就是 生成 对抗 式 网络。 还有 dr k ma 是 adam 的 发明人, 也是 现在 所有的 深度 学习 的 优化 器用 的 算法。 Anta party ellia open A T chip scientist 等等, 都 特别 强 的 一个 阵容。
是 在 你 加入 OpenAI 的 时候, 你 会 负责 其中 的 哪些 工作? Open I 当时 他 研究 的 东西, 你 觉得 跟 今天 有 很大 的 不一样 吗? 再说 一个 背景 信息, OpenAI 大概是 在 2015年 成立 的, 你 应该 就是 在 OpenAI 非常 早期 一年 之内 就 加入 了, 然后 做了 他们的 第一个 实习生。
对我 觉得 非常 荣幸 能够 在 早期 的 时候 看到 open 内 亚 内部 做 的 一些 研究 以及 他们的 一些 想法。 那个 时候 我 负责 的 项目 叫做 open A E universe。 那个 项目 它 其实 是一个 通用 决策 智能 体 的 一个 探索。 Open universe 的 意思 是 所有的 比如说 网站, 那些 web application 网站 的 应用 游戏 等等, 都 可以 通过 鼠标 和 键盘 来 控制。 OpenAI 他们 搭建 了 一个 infrastructure, 就是 能够 用 鼠标 和 键盘 来 控制 这些 游戏, 然后 能够 比如说 去 解 一些 网上 的 叫 web occasion。 当时 我们 就 想要 训练 智能 体, 然后 能 做 这件 事情。 当然 在 16年 的 时候, 技术 还 远远 没有 很 成熟, 所以 对 那个 时候 我 觉得 效果 并没有 特别的 好。 但是 那时候 其实 open a 一直 想要 追求 的 就是 通用 智能 体, 那 也是 我 当时 实习 的 项目 的 一部分。
什么 叫 通用 智能 体? 可不可以 跟 听众 们 解释一下?
通用 智能 体 的 意思 就是 这 一个 人工智能 它 不是 为 一个 专门 的 领域 所 设计 的。 比如说 一个 专门 的 任务 所 设计 的, 他 能够 用 同一个 模型 做 几百种、 上 千种 甚至 无数种 任务。 至少 当时 是 有 这 样子 一个 想法。 具体 的 这个 体现 就是 open universe 它的 一个 实现 就是 通过 看 屏幕 上面 的 像素, 直接 能够 输出 键盘 和 鼠标 的 一些 action。
你说的 这个 通用 智能 体, 因为 我们 知道 现在 OpenAI 它的 目标, 包括 sam altman, 它 经常 在 媒体 面前 讲 的 就是 A G I 通用 人工智能。 就是说 人工智能 在 所有的 方向 做 的 东西 不弱 于 人的 水平。 当然 这 是我的 一个 定义, 就 关于 A I 到底是什么 定义 的话, 我相信 业界 和 学界 也有 很多很多 的 说法。 那 你说的 这个 通用 智能 体, 它 跟 A G I 的 这样的 一个 关系 是什么 呢?
我 觉得 基本上 通用 智能 体 和 A G I 这 两个 概念 差不多。 但是 只不过 具体 怎么 实现, 他们 有 很 多种不同 的 方式。 比如说 后来 可能 过了 好多年 OpenAI 他们 发现 了 GPT, 然后 通过 自然语言 来 实现 类似 通用 智能 体 的 一个 A I 但是 当时 其实 open universe 就是我 实习 时候 参与 的 那个 项目, 他 走 的 路径 特别的 不一样。 它是 通过 决策, 通过 这 样子 一个 鼠标 和 键盘 的 方式 来 实现。 当然 后来 发现 其 实用文 本来 实现 通用 智能 体, 那是 一条 比 用 鼠标 和 键盘 要 快 很多 的 一个 路径, 但 这个 是 后话 了。
你 可不可以 跟 大家 介绍 一下 在 OpenAI 早期 你 加入 的 时候, 那些 加入 OpenAI 的 大牛 们。 你 刚刚 也 简单 的 介绍 了 一些 人, 然后 我记得 上次 其实 我们 聊天 的 时候, 你 有 说 在 早期 OpenAI 工作 也是 一件 压力 特别 大 的 事情, 因为 身边 都是 大神。 什么 在 这群人 中, 你 觉得 大家 的 一个 共同 目标 是什么? 谁 在 主导 整个 OpenAI 的 研究 方向?
对我 觉得 当时 OpenAI 真的 是一个 神 一样的 地方。 因为 所有的 那些 在那边 全职 的 科学家, 基本 都是 业界 的 大牛, 而且 他们 很多 论文 我在 没有 加入 欧元 之前 就 全都 读 过。 所以 去 那边 基本上 就是 见到 我 当时 心中 的 众神 们。 所以 我 觉得 那个 时候 的 OpenAI 还是 研究 的 方向 比较 多样化。 因为 每一个 大神 他们 其实 有 自己的 一个 研究 的 领域, 大家 都在 探索 不同 的 东西。 比如说 刚才 提到 的 E N good fellow 在 研究 的 是 更多 的 生成 对抗 式 的 这种 模型。 Dark cma 他 可能 研究 的 更 多是 像 变 分 自 编码器, 就是 variation out encoder V A E 这条路。
还有 一位 叫 alec radford, 他 当时 在 研究, 其实 后来 非常 像 GPT 的 一个 东西。 当然 那个 时候 还没有 transformer 这 样子 一个 神经网络 的 架构。 那个 时候 还是 LSTM, 也就是 一种 回馈 式 神经网络。 就 R N 中 alec radford 他 当时 就 提出 我们 应该 训练 语言 模型, 并且 不仅 是用 LSTM 来 实现, 而且 需要 在 很大 的 数据 上面 进行 训练。 所以 他 当时 就 想到 通过 预测 一句话 的 后面 一个 单词, 这 样子 一个 非常简单 的 一个 目标 函数 来 训练 整个 神经网络。 所以 很 有意思, 其实 在 transformer 发明 之前。
就 已经 有 GPT 的 影子 了。 所以 相当于 alec radford, 它的 那个 研究 是 我们 可以 理解 成 有 一点点 像 GPT 的 前身, 它 也是 GPT 的, 相当于 一个 技术 的 电机。
对, 而且 非常 有意思 的 是 这个 对于 下一个 单词 的 预测 这样 一个 目标 函数, 它 其实 和 神经网络 具体 的 架构 本身 是 可以 相对 独立 的。 所以 也可以 用 穿梭 来 实现, 也可以 用 回馈 式 神经网络, 比如说 LSTM 来 实现。 但是 这个 背后 的 思想 的 范式 是 一样的。
还有 包括 alex 当时 提出 我们 把 回馈 训练 在 大量 的 文本 数据。 比如说 像 redit 是一个 美国 比较 流行 的 论坛。 它 有一个 特点 就是 所有的 人 可以 匿名 的 去 发 一些 评论, 而且 会有 对话 的 一个 过程。 所以 其实 那个 时候 就 已经 有 这样 一个 对话机器人, 也就 后来 叉 GPT 的 前身, 其实 在 那个 时候 已经 有 一些 影子 了。
当时 这个 数据集 和 当年 16年 的 时候 大部分 的 比较 流行 的 学术 的 数据集 不太 一样。 因为 学术 数据集 那个 时候 用 的 比较 多 的 是, 比如 维基百科 或者 什么 联合国 的 一些 文档。 那些 文档 的话 都 内容 比较 严肃, 比较 刻板, 所以 就 不太会 生成 一些 有意思 的 东西。 但是 当时 OpenAI 就说 我们 要在 网上, 比如说 像 red 论坛 和 别的 一些 数据集 上面 做 这个 训练。 那 这 样子 的话, 这个 A I 它 就 能够 生成 更 有意思 的 东西。 但 我不 觉得 16年 的 时候 opens 或者 任何 学术 圈 的 人 意识到, 只要 把 这个 东西 不断 的 加算 力加 数据, 把 它 scale up, 就 能够 实现 一个 类似 或者 接 基于 通用 人工智能 体 的 一个 技术。 我 觉得 当时 没有 一个人 真的 意识到, 但 我 觉得 确实 那个 时候 已经 埋 下了 种子。
你 指的 埋下 种子 是 指 什么? 就是 在 随着 大家 的 研究 逐渐 深入, 大家 发现 这件 事情 对 算 力 就可以 解决。
在 刚 提到 的 alex 他的 探索 下 之后, 传 form 出来 了, open I 就 提出了 GPT。 GPT 这个 算法 全称 叫 generative p training。 我 这边 大概 解释一下, transformer 那 篇 论文 是 谷歌 研究院 的 科学家 提出来 的。 当时 提出 的 时候, transformer 有 两个 部分, 一个 是 编码器 encoder, 还有一个 是 解码器 decoder。 但是 GPT 他 就 提出 我们 不需要 编码器, 我们 只要 解码器 decoder 就可以 了。 Decoder 它的 训练 的 原理 就是 不断 地 预测 下一个 单词。 所以 其实 在 这一点 上面 和 刚 提到 的 I O S T M 等 回馈 式 神经网络 是 特别的 像 的。 因为 16年 的 时候, OpenAI 做了 那些 回馈 式 神经网络 和 下一个 单词 预测 这样 尝试。 所以 对 他们 来说, GPT 作为 一个 纯 解码器 的 一个 模型, 是一个 很 自然而然 的 一个 眼神。
但 其实 当时 学术 圈 里面 并没有 达成共识, 为什么 一定 只用 解码器? 我 举 个 例子, 比如说 谷歌 在 transformer 之后, 有 一篇 特别 火 的 自然语言 处理 的 工作 叫 bert。 Bert 其实 和 GPT 是 反其道而行之, 它是 纯粹 只有 编码器, 也就是 它是 encode 的 一个 模型。 它 其实 并没有 像 GPT 那样的 一个 解码器, 它是 完全 通过 编码器 来做 一个 表征 学习, 也就 所谓 的 representation learning。 但是 GPT 的话, 它 提出 的 是用 解码器 来进行 生成。 所以 我 觉得 那个 时候 学术 圈 里面 还是 处于 一个 百花齐放, 百家争鸣 的 状态。 有 不同 的 编码器 解码器 或者 一个 混合, 有 各种各样 的 学派。 当时 包括 我 在内, 我 觉得 很多人 也没有 意识到, 就 GPT 其实 是 非常 好的 一条路, 可能 比 别的 模型 会 更强。 当时 我 觉得 绝大部分 人都 没有 意识到。
大家 是 怎么 敢 在 GPT 里面 去 堆 这么 多 的 算 力 进去, 这么 多 的 数据 进去。 因为 其实 堆 算 力 的 过程 就是 不停 的 把 资金 砸 入 进去 的 一个 过程。 我 觉得 我们 除了 说 他 需要 很多 的 决心, 同时 我相信 大家 需要 在 科研 上 是 看到 有 反馈 的那 为什么 大家 最后 赌 的 是 GPT?
对我 觉得 首先 我在 16年 暑假 之后 就 离开 OpenAI, 所以 之后 他们 做 GPT 的 时候 我 并没有 亲自 在场, 所以 我也 只是 从 外界 来 观察 这 事儿。 我 大致 猜测 就是 后来 在 GPT 之后 出了 GPT2。 GPT2 其实 跟 本来 的 GPT1 的 模型 算法 是 几乎 完全 一样的, 唯一 的 区别 就是 更多 的 数据, 更大 的 模型。 但 其实 G P E R 也没有 特别 大, 就是 大 到 不容 个 十个 亿美金 训练 不了, 也 远远 没有 到 这个 规模。
但是 其实 GPT r 已经 有 一些 我们 称之为 叫 emergent property, 就 一种 涌现 的 一些 智能 在 里面。 比如说 他 做 多任务 什么的 会 做 的 特别 好, 然后 比 G P E 会好 很多。 还有 包括 一些 微调 fine tuning 什么 也都 做得 很好。 所以 我 觉得 open I 可能 在 那个 时候 看到 GPT2 它的 能力, 还有 生成 文本 的 流畅 程度 比 GPT 高 那么 多。 我 觉得 他们 可能 看到 了 这一点, 然后 他们 就 下了 一个 赌注, 我们 扔 大量 的 算 力, 大量 的 经费, 把 GPT r 扩大 十倍 甚至 100倍, 所以 后来 就 成为 了 GPT3。 所以 我 觉得 这条 应该 是 open I 内部 他们 看到 了 这样 一种 涌现 的 智能, 下了 一个 赌注, 当然 有可能 赌输, 但是 事实上 就是 历史 证明 他们 赌赢 了。 所以 我 觉得 这也是 一个 很 非凡 的 成就。
是的, 你 刚刚 说到 其实 还有 一个点, 我 觉得 挺 有意思 的。 你 提到 alex 他 其实 是 最早 提出 用 reddit 的 数据 去做 训练 数据 的。 因为 以往 大家 在 对 训练 数据 的 时候, 可能 会 去 堆 更 准确 的 数据。 比如说 维基百科, 他在 说 一个 事实 的 时候, 他的 数据 是 非常 准的。 但 我们 知道 在 reddit 上 它 其实 是一个 用户 论坛。 然后 这个 论坛 上 什么样 的 帖子 也有 很多 的 回帖, 也有 很多 的 mem 符号。 但是 可能 在 这个 论坛 上 也有 很多 逆气, 大家 去 兑 一件 事情, 这 都是 非常 正常 的。 他 当时 想 把 redit 的 数据 加进去, 只是 说 他 为了 去 扩大 数据量, 还是 说 他 其实 是 为了 让 他的 表述 更加 生动, 还是 出于 其他 的 什么 原因。 当时 我 想知道 你们 再去 决定 去 用 一些 新的 数据 去做 训练 的 时候, 这个 思考 是什么?
首先 我 当时 不在 那个 项目 上, 所以 他们的 初衷 我 并不知道, 这 是我的 猜想。 我 觉得 就 像你 刚才 提到 的, redit 它 更加 生动, 它 没有 那么 死板, 它 不 只是 一个 平铺直叙 的 解释 一个 知识点。 比如说 百度 百科 和 维基百科 都是 解释 一个 知识点, 没有 什么 情感。 但是 其实 在 read 上面 这种 各种各样 的 情感 很多, 喜怒哀乐 都有。 所以 我 猜测 是 他们 觉得 这样 作为 一个 深层次 的 模型, 至少 会 特别 有意思。 因为 你可以 让 它 生成 各种 语境 下面 的 不同 的 一些 话。 但 如果 GPT 模型 只用 维基百科 来 训练 的话, 那 它 生成 的 永远是 这种 平铺直叙 的 比较 枯燥 的 内容。 所以 我 觉得 可能 一定程度 上 是从 因为 他们 想要 生成 内容, 什么样 的 内容 最 有意思?
生成? 那 可能 是要 从 论坛 上面 大家 这样 一个 聊天 的 记录。 其实 redit 就是 一个 公开 聊天记录。 说白了 所以 他们 拿 那个 聊天记录 过来, 那 肯定 生成 的 东西 会 更加 生动 一些。 我 估计 初衷 是 这样的, 你 早期。
就是 2016年 在 的 时候, 那个 时候 sam 奥特曼 跟 马斯克, 因为 他们 当时 是 都在 OpenAI, 你 觉得 谁 对 OpenAI 的 影响 更大 一点?
当然 我 当时 是个 实习生, 没有 接触 过 他们 决策 管理层, 所以 这个 我 不太 清楚。 不过 我 觉得 当时 从 技术 上面 的话, 我不知道 他们 参与 了 多少。 但 我 觉得 叶 利亚, 还有 alex 还有 Andrew ki 和 greg brock, 我 觉得 对 GPT 这样 一个 技术 的 影响 是 非常 的 大 的。 他们是 直接 去做 这样 一个 项目 的 科学家。
上次 其实 我们 聊天 的 时候, 你 还 提到 一个 非常 有意思 的 现象。 我们在 提到 跟 A I 相关 方向 的 研究 的 时候, 微软 早期 是 非常 强 的那 之后 是 很多 人才 跟 A I 研究 相关 的 去了 google bring, 后来 又是 去了 OpenAI。 如果你 作为 一个 A I 研究者, 你 觉得 什么 是 最 吸引你 去 到 一家 公司 的?
我 现在 在 英伟 达 做 研究 科学家, 我 觉得 加入 英伟 达 有 几个 原因。 一个 是 英伟 达 研究院 做 的 研究 多样性 比较 广。 比如说 有 做 计算机视觉 的, 有 做 自然 处理 的, 还有 做 机器人 的 等等。 对我来说, 我 从 博士 刚 毕业 的 时候, 其实我 是 想要 继续 能 做 一些 研究 的 工作, 不一定 说 就 直接 去做 产品。 然后 我 就 因为 在 研究院 给我 很多 探索 的 自由, 这点 上 我是 觉得 一个 很 吸引 我的 地方。 第二 看 一个 公司, 看 他 资源 或者说 是 长期 的 计划 是 什么样 的。 我 确实 觉得 英伟 达 第一 资源 肯定 是 很强 的, 毕竟 我们是 做 G P 有的 公司 现在 G P U 就 显卡 基本上 是 训练 A I 的 主要 的 硬件, 所以 我 觉得 这 一块 公司 资源 非常 的 强。 而且 公司 长期 来说, 因为 现在 A I 的 模型 基本 都 是用 G P U 来 训练 的, 所以 我 觉得 这 一块 发展 也会 比较 好。 综上所述 就是 一个 是 研究 的 自由, 探索 自由, 还有 第二个 是 未来 的 发展 及 资源。 这个 是我 比较 重视 的 几个 方面。
我 觉得 选择 还是 非常 好的。 因为 大家 现在 看 英伟 达 的 股价 也 看到 了, 我们 前期 就 聊 了 很多 跟 OpenAI 相关 的, 包括 他的 早期 的 成长, 包括 你 早期 在 中间 的 一些 经历。 那 接下来 我 其实 也有 一些 关于 大 模型 的 一些 观点 性 的 东西 想 跟 你 讨论一下, 可能 也是 现在 市场上 大家 关注 的 比较 多 的 第一个 问题, 就是 未来 的 大 模型, 你 认为 它 会不会 是一个 赢者 通 吃的 市场, 还是 说 它 会有 多个 大 模型 存在 的 市场? 因为 我们 现在 看 OpenAI, 它 可能 暂时 的 领先 其他 大 模型 一段时间。 但 它的 领先 可能 是 它 会 吃 进去 很多 的 数据, 大家 会 不停 的 跟 恋爱 互动, 然后 它 会有 反馈, 它 会 变得 更强。 但是 同时 我们 说 不管 是 谷歌 的 模型, 还是 说 像 stability, 包括 一些 图片 的 模型, 他们 有 自己 很强 的 应用。 就 你 觉得 未来 的 大 模型 的 市场 格局 会 是 怎么样 一样的 呢?
我 觉得 首先 应该 不会 是 赢者 通吃, 肯定 会有 多个 大 模型。 但是 我 觉得 也 不会 太多。 可能 曾经 比如说 像 SARS, 或者 是 做 手机 A P P 这些, 可能 市面上 有 几百万个 A P P, 只要 大家 会 写 一些 代码 的 人都 能 写 一个 iphone 的 APP。 但是 我 觉得 这个 大 模型 肯定 不可能 是 这样, 但是 大 模型 也 不会 只有 一家。 所以 我 觉得 可能 更多 的 像是 一个, 比如说 有 十几种 不同 的 大 模型, 然后 每一个 都是 不同 公司 做 的, 每一个 都有 自己的 专长, 这个 是 未来 相当长 一段时间 的 导向。 然后 现在 OpenAI 确实 在 语言 模型 这个 事情 上面 是 主导 的。 但是 举 个 例子, 比如说 在 图像 生成 模型 上面, 现在 达利 的 质量 有些 时候 并比 不过 mid journey made journey 是一个 我 跟 听众 朋友们 很快 介绍 一下, the journey 是 一家 只有 11个人的 一个 初创 公司, 他们 做 的 就 是从 文本 生成 图片。 现在 目前 基本 大家 公认 majora ney 生成 的 图片 的 质量, 清晰度 都是 业界 算是 数一数二 的这 一点 上 我 觉得 majdi 在 生成 图片 的 大 模型 上 是 比较 领先 的。
还有 一家 我 听说 叫 eleven labs, 这家 公司 是 生成 语音 的。 合成 语音 之前 我 看过 他们的 一个 展示, 他们 用 乔布斯 生前 的 那些 声音 合成, 你可以 让 乔布斯 讲 任何 你 想 让 他 讲 的话, 听 上去 的 声音 就像 乔布斯 本人 在 跟 你 讲话 一样。 语音 的 逼真 的 程度 已经 做得 非常 的 好。 所以 比如说 像 这 样子 一个 语音 的 大 模型, 可能 又是 由 不同 的 公司 来 主导。 所以 我 觉得 未来 一个 是 不会 一家独大, 肯定 会有 多种不同 的 大 模型。 而且 每一个 模型 有 它的 专长, 有 它 自己的 一个 市场。
第二, 我 觉得 未来 是 肯定 会 发展 的 一个 方向 是 多 模态。 就说 文本 现在 肯定 是 大家 目前 看到 的 最 火 的 一个 模态。 但 之后 的话, 比如说 像 视觉、 二维 视觉, 甚至 三维 视觉, 还有 语音 等等, 或者 之后 可能 还 会有 机器人 等等, 就 各种各样 的 模态 都会 加进来。 我不 觉得 over A I 或者 任何 少数几家 公司 能把 所有的 模态 全都 做 完。 所以 这也是 一个 未来 的 发展 的 方向。
你 相信 通用 人工智能 会 实现 吗?
我 觉得 这个 词 比较 难 定义。 而且 我 觉得 可能 定义 这个 词 本身 意义 也 不大, 因为我 现在 给 一个 定义, 务必 会有 听众 朋友 或者 学术 圈 里面 的 学者 和 我 持有 不同 的 意见。 更 有意思 的 一个 讨论 点 是 这些 模型 能 带来 多少 的 经济 价值。 我 觉得 这个 经济 价值 是 巨大 的, 包括 刚才 说 的 多 模态, 基本上 模态 越多, 它 能够 涵盖 的 商业 的 应用 就 越来越多。 刚才 提到 语音, 视觉 什么的, 机器人 等等。 现在 光是 文本 我们 已经 看到 各种各样 不同 应用。 比如说 在 办 公里 的 应用, 在 法律 这 样子 一个 需要 专业技能 的 一个 领域 里 的 应用, 在 会计 里面 等等等等。 我们 已经 看到 大 模型 渗透到 商业 和 我们 社会 经济 的 每一个 领域。 所以 我 觉得 更 重要 的 一个 问题是, 这些 大 模型 未来 能 创造 多少 的 社会 价值?
我 觉得 这个 社会 价值 是 颠覆性 的。 我 个人 觉得 人工智能 就是 一场 新的 工业革命, 而且 比 前几次 工业革命 可能 加起来 它的 影响力 都要 大 很多。 这 是一个 像 指数 爆炸 一样的 一个 社会 价值 的 创造。 所以 我 觉得 通用 不 通用 不是 特别 重要, 重要 的 是 社会 价值 以及 体系 都会 受到 颠覆性。
对我 再说 一下, 我 刚刚 为什么 问 你 那个 问题, 就是你 相信 通用 人工智能 吗? 因为 在 我们在 聊到 大 模型 的 时候, 其实 我们 有 提到 基于 语言 生成 的 大 模型, 图像 生成 的 大 模型, 甚至 你 有 提到 云 合成 的 大 模型。 后来 我们 也 还 提到 了 基于 法律 的 大 模型, 生物 的 大 模型, 办公 软件 的 大 模型。 但是 其实 有一个 基本 的 是, 比如说 有 一些 基于 法律 的 模型, 它 可能 是 搭建 在 GPT 上 的 一个 应用。 就是 它 可能 是 它 其中 的 一个 插件, 或者 在 它 上面 有 一层 优化。 我 更 想 问 的 是你 认为 这种 大 模型 他们 未来 有可能 会 训练 成 一个 通才 还是 专才?
当然 我 假设 一个 模型 搭载 ChatGPT 上, 我在 上面 再加 一些 法律 方面 的 优化, 它 最后 能 变成 一个 法律 专家, 或者说 一个 生物 的 模型 搭 在 ChatGPT 上, 最后 变成 一个 可以 合成 蛋白质 结构 的 模型。 但是 还是 说 他 需要 分别 的 大 模型, 就是 专门 的 生物 的 数据库 去做 生物 的这 条 线, 还是 说 它 都 可以 运用 一个 底层 架构。 就是我 考虑 的 是 这个 模型 它 到底 未来 是一个 通才 还是 专才。
懂了, 我 觉得 更有 可能 的 是 就 像你 刚才 提到 的 一个 通财 的 模型。 当然 这个 通用 是否 达到 人类 的 智能, 就是我 刚刚 说 的, 大家 有 不同 的 定义, 大家 学术 圈 也 不一定 是 有一个 统一 的 定义。 但是 我 觉得 一个 通才 的 语言 模型, 然后 在 上面 加 插件 的 这样 一个 模式, 将 会 是一个 未来 的 导向。 当然 这个 插件 怎么做, 以及 这个 通才 上面 的那 一层 是什么, 我 这个 可能 不同 公司 会有 一些 不同 的 答案。 比如说 现在 我们 看到 OpenAI, 他们 就 实现 了 这样 一个 ChatGPT 的 应用 商店, 然后 我 觉得 这个 是一种 方式。
另外 一种 可能 是, 比如说 现在 有一个 大 模型, 但是 我想 把 它 应用 在 法律, 那 我 可能 在 法律 的 领域 里面 做 一定 的, 比如说 蒸馏 等等。 可以 让 这个 模型 变得 在 法律 的 这个 领域 里面 能够 更加 的 专业。 并且 可能 它 会 比 一个 完全 通用 的 一个 模型 效率 会 更高。 因为 那个 模型 它 不需要 知道 任何 医学 的 知识 等等, 他 只要 知道 法律 知识 就可以 了。 所以 它 也可以 是一个 通用 模型 的 专业化 的 一个 版本。 但是 我 觉得 一个 通用 的 模型 这样 一个 基石 是 很 重要 的。 有了 这个 基础 以后, 要么 做 插件, 要么 做 一些 蒸馏, 获得 一个 更加 专业 的 版本, 我 觉得 这个 都是 可行 的对。
但 他们 都是 可以在 大 的 模型 下面, 或者说 找 一些 开源 的 模型。 他们 只是 需要 做 一些 优化, 或者 加入 一些 特定 领域 的 数据, 进行 一些 特定 领域 的 训练, 他们 不需要 再 从头 搭 一个 了。
对, 不过 我 觉得 不一定 每 一家 公司 都能 这样 做。 因为 通用 模型 训练 起来 肯定 是 难度 非常 的 大。 现在 能 训练 通用 模型 的 公司 全世界 屈指可数。 所以 我 觉得 有些 比如说 中型企业, 甚至 是 初创 公司, 如果 想要 用到 这些 语言 模型 做 一些 专业 的 事情 的话。
我 觉得 一条 更快 的 路 不是 先 训练 一个 通用 模型, 再 把 它 进行 专业化 或者 加 个 插件, 而是 直接去 训练 一个 专业 的 模型。 但是 我 觉得 主要 的 原因 是 可能 经费 不够, 公司 的 规模 不够。 在 这 样子 一个 情况下, 那是 迫不得已 只能 走 这条路。 但 我 觉得 这条路 也是 能够 解决 某 一个 公司 想 解决 的 问题 的。 所以 我 觉得 通用 模型 是 一件 好 事情, 但是 可能 对于 某些 特定 的 商业模式。
它 没有 必要。 Midjourney 算是 哪一类?
我 觉得 my journey 目前 应该 是一个 通用 模型, 因为 基本上 所有的 画风, 不同 的 画风 它 都能 生成。 比如说 它 能够 合成 看上去 非常 逼真 的 照片, 它 还 能够 合成 一些 像 科幻 的 电影 里面 的 一些 场景, 还能 合成 动漫, 还能 合成 素描、 油画 等等。 所以 我 觉得 他 现在 目前 是一个 通用 的 模型。
对, 虽然 miss journey 现在 有 很多很多 的 用户, 我也是 他的 付费 用户 之一。 但是 我 一直 都很 好奇 他 这样 一家 创业 公司, 仅凭 他的 付费 用户 的 收入, 它 是不是 能够 支撑 它的 成本 去 训练 这样 一个 通用 的 模型。 因为 我们 知道 现在 整个 大 模型 的 训练 成本, 包括 堆 算 力, 整个 还 挺 贵 的。 它 其实 也 不是 完全 是一个 创业 公司 能够 做 的 事情。
对, 确实 非常 的 昂贵。 不过 我 觉得 还有 另外 一条路, 一个 比较 好的 商业模式 是 和 企业 合作。 举 个 例子, 有 很多 做 游戏 或者 电影 特效 的 一些 企业, 他们 可能 需要 一些 企业级 的 这种 模型。 然后 我 觉得 类似 my journey 这样的 公司, 有可能 是 可以 通过 和 企业 合作, 然后 能够 获得 更大 的 订单, 而不 只是 通过 每一个 散户 过来 付 一个 每个 月 的 订阅费, 那个 可能 加起来 不是 特别 多。 所以 我 觉得 对于 像 这样 一个 深层次 的 A I 的 初创 公司 的话, 有 这 两条路 可以 走。
就是 类似 于 他们 在 做 一个 SaaS 级 的 产品, 相当于 为 企业 来 提供 一些 增值 服务。 其实 有点 类似 于 jasper 他们 现在 做 的对。
其实 英伟 达 在 上一次 G T C 发布会 的 时候 也 提到, 英伟 达 更多 的 是一个 为 企业 服务 的 大 模型, 叫 NVIDIA A I foundations。 其实 也是 刚才 提到 类似的 想法, 比如说 为 企业 做 一些 这种 生成 图片 和 大 的 语言 模型。
其实 就在 我们 今天 这个 访谈 开始 的 前 一两天, 我看 业界 大家 又 在 欢呼 一件 事情, 就是 meta ai 他 做 的 segment anything, 它是 一个 图片 的 模型。 然后 我看 你 在 twitter 上 是 把 它 称为 是 GPT3 moment。 在 计算机视觉 领域 它 算是 一个 GPT3 moment。 因为我 现在 其实 还没有 看 那 篇 论文, 就是你 可不可以 跟 大家 解释一下 这个 segment anything, 它 主要 的 突破点 在哪里? 为什么 它 意义 重大?
对, 那 篇 论文 我 特别 喜欢, 它 解决 的 叫 image segmentation, 也就是 图像 分割 的 问题。 简言之 给 一个 图片, 在 图片 里面 比如说 有 三条 狗 两只 猫, 这个 A I 它 能不能 把 三条 狗 和 两只 猫 的 整个 轮廓 把 它 全部 都 勾 下来。 这个 就是 一个 很 经典 的 计算机视觉 问题, 叫 图像 分割。 然后 这个 问题 非常 的 难。 在 计算机视觉 领域 也有 几十年 的 研究 的 历史。 我 觉得 这 一篇 论文 基本上 完全 用到 了 这样 大 模型 的 一个 范式。
大 模型 的 思路。 首先 我 觉得 他 不是 第一篇 用 transformer 来做 分割 的 模型, 因为 之前 其实 有 很多 论文 用到 了 transformer。 但是 我 觉得 他 确实 是 第一篇 大规模 用 这样 一个 大 模型 的 思维 去 解 的。 然后 什么 意思 呢? 有 以下 几条。 第一个 是 它的 神经网络 的 架构 非常 的 简单, 又 简单 又 比较 scalable。 当然 也是 用 transform 一个 辩题, 但是 它 里面 并没有 一些 花里胡哨 的 一些 东西, 一个 很 简洁 的 通用 的 一个 架构。 第二条 就是 它 有一个 我们 称之为 叫做 data fly will 的 一个 东西。
一开始 时候 可能 有 少量 的 人工 标注 的 一些 图像 分割 的 数据, 一些 训练 数据。 通过 这个 训练 数据 已经 能够 训练 一个 版本 的 模型, 但 这个 模型 可能 效果 不是 特别 好。 但是 你可以 用 这个 效果 不太好 的 模型 自动 分割 大量 没有 人工 标注 的 那些 图片。
可以 雇 一些 人, 比如说 来 在 这些 基础 上面 再做 一些 标注。 这些 标注 就 比较简单 了, 因为 比 从零开始 标 肯定 要 简单。 如果 这个 机器 已经 标 对了, 那你 就 直接 跳过 就行了。 标 错 的话, 你 再 帮 他 再 修改 一下。 所以 这个 第二步 已经 是 简单 很多。 这样的话 你可以 让 这种 高质量 的 标注 的 数据 多 很多, 而 不需要 顾 太多 的 人, 这是 第二步。
第三步 就 直接 可以 让 模型 直接 再去 标 剩下 的 各种 的, 就是 所有的。 比如说 我记得 他 应该 有 上千万 张 图片, 就 直接 用 这个 算法 去 标 上千 文章。 然后 用 一些 hurry ism 的 一些 方法, 你 能够 从中 获得 比较 高质量 的 标注。 然后 你 把 那些 算法 不是 那么 的 confident 的 一些 内容 给 去掉。 通过 这样 一个 data fly reel, 它 就 能够 做到 一个 越来越 好的 图像 分割 的 一个 效果。 后来 facebook 他们 把 他们的 数据 以及 模型 全部 都 开源 了, 但 我 觉得 这个 对 A I 的 研究 的 社区 也是 相当 有 帮助 的。 因为 现在 大部分 的 公司 都 不会 开源 大 模型, 所以 我 觉得 这一点 上面 他们 也 做得 非常 的 好。
这 篇 论文 出来 了 以后, 你 觉得 他 会对 哪些 行业 的 发展 产生 非常 重大 的 影响? 就 比如说 当你 提到 图形 标注 的 时候, 包括 这些 高质量 的 标注, 最后 它 可能 会 产生 一个 数据 飞轮。 你 觉得 比如说 他 会对 自动驾驶 行业 的 corner case 有 更多 精准 的 判断 吗?
对我 我 觉得 他 对 无人驾驶、 机器人 这些 上面 都 会有 比较 大 的 帮助。 当然 因为 这个 模型 刚刚 开源, 所以 目前 还没有 看到 有 大 的 一些 项目 正在 用到。 但是 我 觉得 之后 未来 一年 应该 会 看到 各种各样 的 应用。
你为什么 觉得 它的 作用 会 像 GVT3 那么 大? 是因为 它 对 图像 领域 的 一个 巨大 的 贡献。
因为 它的 这个 模型 有 一些 zero shot 的 效果, 比如说 之前 从来 没有 见过 的 物体, 它 也 能够 分割 出来。 包括 再有 一些 可能 非常 特殊 的 一些 情况, 比如说 在 海底, 或者说 在 医学 的 一些 影像 上面, 它 也 能够 做 一个 分割。 这些 都是 有可能 是 之前 在 训练 的 时候 没有 遇到 过 的 场景, 所以 它 能够 做到 一个 非常 强 的 零 样本 的 泛化。 所以 我 觉得 这个 有点 类似 G P 赛。
你 这么说 我 更加 理解 了, 类似 于 这个 模型, 它 已经 不仅仅 只是 靠 视觉 来 识别 他, 同时 还 加入 了 他 理解 的 部分, 对不对? 就是 你说 他 可以 识别 他 没有 见过 的 物体。
对我 觉得 它 这个 模型 它 学会 了 物体 这样 一个 抽象 的 概念。 因为 对于 我们 人 来说, 我们 偶尔 也会 遇到 一些 奇形怪状 的 东西。 但是 我们 照样 都 知道 这也是 一个 物体。 尽管 我们 之前 可能 这辈子 从来 没有 见过 这样 一个 特定 的 奇形怪状 的 东西, 我们 还 想知道 它是 一个 物体。 我 觉得 至少 从 他们的 论文 上 看, 这 一篇 sam 这个 模型 也 能够 做到 这个 之前 从来 没有 见过 的 某 一种 物体, 但是 他 能够 把 它 分割 出来, 所以 他 学会 了 这样 一个 很 通用 的 物体 的 抽象 的 概念, 这个 就 有点 类似 G P3, 所以 我 就 打了 这样的 比喻。
所以 我 觉得 最近 整个 人工智能 的 发展 太快 了, 非常 的 激动人心。 我 感觉 每个 月都 有 好多好多 的 新的 进展 出来。
对, 非常 的 激动。
你 会 觉得 现在 的 人工智能 的 这些 大 模型, 它 会 像是 之前 我们 说 互联网 网 跟 移动 互联网 时代 的 一个 操作系统。 比如说 像 一个 windows 系统, 或者 像 一个 android 或者 苹果 的 这样的 一个 系统。 所有的 这些 应用 是 构建 在 上面 的, 也 还是 一个 的 小 应用。 我不知道 你 作为 一个 人工智能 的 研究者, 你 会 怎么样 去 定义 这些 大 模型。 我知道 现在 大家 可能 对 未来 还有 很多 看不清楚 的 地方, 但是 还是 很 想知道, 你 觉得 他们 未来 会演 变成 一个 大概 什么样 的 形态。
对我 觉得 你 刚才 这个 比喻 特别的 好。 就是 这些 大 模型, 尤其是 语言 模型 是一个 操作系统, 然后 剩下 的 东西 就是 上面 这个 应用层。 我 觉得 这个 比喻 特别 恰当 的 一个 原因 是我 就说 当年 乔布斯 推出 的 第一款 iphone。 我 觉得 iphone 它的 特点 就是 一 整个 手机 都 是一个 触摸屏, 没有 物理 的 键盘。 你 完全 用 手指 做 所有 在 手机 上面 想做 的 事情, 包括 拨号 什么的, 全都 没有 一个 物理 键盘。
我 觉得 乔布斯 当时 提出 iphone 1个 最大 的 革新 是 这样 一个 人机交互 的 界面, 它 重 定义 了 人机交互 应该 是 什么样 的。 Iphone 之前, 黑莓 那些 手机 人机交互 是 通过 键盘, 但是 iphone 是 通过 触摸屏。 之后 所有的 手机、 智能手机 全 是用 触摸屏。 所以 我 觉得 这 是一个 人机交互 的 一个 革命性 的 一个 创举。
我 觉得 现在 大 语言 模型 也 非常 的 像 大 语言 模型 也将 会 重 定义 人机交互 这样 一个 范式。 可能 我们 现在 是用 触摸屏 或者 用 鼠标 和 键盘 来 和 我们的 电脑和手机 交互。 但 之后 的话 我们 就 完全 通过 语音, 或者 不 通过 点 鼠标, 不 通过 用 手机 上 的 应用, 而是 直接 上来 我 就 开始 写 一句话, 我 今天 想要 去 法国 旅行, 帮 我 做 一个 旅行 计划。 然后 这个 大 语言 模型 以及 这个 语言 模型 上面 应用 插件。 比如说 可能 有些 旅行 的 规划 的 一些 插件, 或者 订 旅馆, 或者 订机票 的 插件 等等。 A I 它 来 帮你 做 整个 规划, 你 就 只要 负责 确认 一下, 最后 付过 款 就可以 了。 所以 我 觉得 你 刚刚 说 这个 操作系统 比喻 特别 恰当。 因为 这是 新的 一场 人机交互 的 革命。 之后 的话 都是 通过 这种 语言, 语音 这样的 一个 很 自然而然 的 指令, 而 不是 通过 我们 去 下载 一个 程序安装, 然后 鼠标 和 按钮 点来点去 这 样子 一个 方式。
对, 而且 我 觉得 你 刚刚 说 的 有 一个点 特别 好。 就是 你说 其实 iphone 它的 意义, 它是 定义 了 一个 人机交互 的 方式。 我记得 上次 我们 吃饭 的 时候, 其实 有 聊到 我们 说 ChatGPT, 其实 GPT 模型 在 很早 之前 就有 了。 ChatGPT 很 厉害 的 一个 事情 是 他 把 它 定义 成了 一个 聊天 的 对话 的 形式。 而且 那个 产品 的 页面 是 非常简单 的。 从 这个 意义 上 来说, 我们 就 觉得 OpenAI 它 在 怎么 把 一个 研究成果 展示 给 公众 的 时候, 这个 步骤 是 做 的 非常 厉害 的对。
其实 这也是 一种 人机交互 上 的 突破。 因为 其实 G P3 以及 3.5 那时候 已经 出来 了 一段时间 了。 至少 根据 sam altima 的 说法, 但是 X G P 是 第一个 把 它 做成 一个 聊天机器人 的 交互 界面。 而且 那个 界面 确实 非常 干净 好用, 大家 都能 用, 而 不需要 比如说 自己 去 写 代码 才能 用 GPT3。 所以 我 觉得 人机交互 在 未来 很有可能 跟 人工智能 大 模型 研究 本身 一样的 重要。
是你 觉得 你 现在 的 工作 中 最 exciting 的 部分 是什么?
我 现在 在 做 一些 多 模态 的 研究, 还有 对于 人工智能 决策 上 的 就是 做 decision 决策 上 的 研究。 然后 这两块 我 都 觉得 第一 非常 有意思, 第二 未来 的 潜力 也 非常 大。 首先 多 模态 的话, G P4 刚刚开始 把 视觉 这块 加进来。 但是 GPT4 的 视觉 它 还是 一个 静态 的 视觉。 也就是说 它 一次 输入 一张 静态 的 图片, 可能 还有 一些 文本 能够 再 输出 一些 文本。 但是 我 觉得 未来 多 模态 肯定 会有, 比如说 视频, 或者 三维, 或者 语音 这 样子 模态 也 全都 加进来。 并且 不仅 是 输入输出, 也有 可能 是 合成 图片合成 语音 等等。 所以 我 觉得 这个 是一个 未来 的 必经 的 导向。
我自己 在 上个月 也有 一篇 工作 叫 Christmas, 其实 也是 类似 这样 一个 想法。 就是说 如何 把 一些 图片 的 模态 能够 接入 大 语言 模型, 不需要 太多 的 额外 的 训练 或 额外 的 参数, 它 就能 把 这 几个 模态 进行 一个 深度 的 融合。 所以 这 是一个 很 有意思 的 研究 方向。
另外 一方面, 我也 在 研究 智能 体 做 决策。 比如说 在 机器人 或 在游戏 里面, 如何 让 人工智能 自主 的 探索 完成 各种各样 的 任务, 这个 是一个 很难 的 研究 问题。 然后 目前为止 也有 很 多种不同 的 方法 能够 探索, 所以 现在 正在进行 中。
我 举 一个 例子, 比如说 我 今天我 现在 在 波士顿, 然后 我想 从 波士顿 飞 旧金山, 我 给 A I 一个 任务, 让 他 订 一张 从 波士顿 到 旧金山 的 机票, 且 还要 便宜。 然后 时间段 会 是在 一个 什么样 的 时间段 内, 他 完全 定 好 发到 我的 邮箱。 你 觉得 现在 整个 A I 可以 做 这件 事情 吗?
现在 肯定 应该 可以 做了。 其实 这个 就可以 通过 GPT4 或 ChatGPT 的 插件 就能 做到。 你 刚刚 提到 的 比如说 写 email 或者 上网 浏览 等等, 这些 功能 肯定 是 都能 实现 了。
我只想 告诉他 一个 语言, 你来 帮 我 订 一张 从 波士顿 到 旧金山 的 机票, 周一, 然后 我要 直飞 比较 便宜 的对 对。
这个 的话 可以 通过 一些 对于 prompt, 也就是 大 语言 模型 提示 的 一些 编写, 就 能够 做到 你 刚 说 的 这个 功能。 不过 我 这边 想 加 一句, 就是 尽管 这个 东西 可以 做 一个 demo, 但是 它 没有 那么 的 可靠。 比如说 你 让 他 试 十次, 我 觉得 有可能 会有 那么 4到5次 他 都会 犯 一些 错。 但 这个 犯 了 就 错, 可能 就会 比较 致命。 比如说 你是 要 去 波士顿, 他 可能 一 不 当心 订成 了 去 旧金山 的 机票, 或者说 是 他 没有 找到 最 便宜 的, 他 可能 浏览 了 前 三个 搜索 的 结果, 但是 可能 最 便宜 的 在 第四个, 他 就 没有 看到 那个 等等。 所以 我 觉得 还是 没有 那么 的 可靠, 但是 至少 目前 我 觉得 是 可以 实现 的。
我 其实 觉得 现在 整个 大 模型 来说, 最 重要 的 就是 他 如何 去 解决 准确性 的 问题。 我 该 如何 信人, 他 给 我的 决策 对不对?
这个 我 觉得 是一个 目前 最大 的 难题 之一。 如何 让 他 做到 可靠 并且 是 安全 的。 比如说 他 会不会 一 不 当心 把 你的 信用卡 的 信息 发 在 网上 等等。 他 不是说 故意 做, 但 他 可能 就 出错 了。 但是 他 也没有 跟 你 及时 汇报。 你 如果 没有 仔细 看 的话, 可能 就 没 意识到, 结果 你的 个人信息 就 泄露 了。 或者说 是 他 可能 一 不当 心上 了 一个 钓鱼 网站, 又 把 个人信息 写 在 上面, 他 可能 没有 办法 判断 那个 网站 是否是 钓鱼 的。 所以 我 觉得 这 一块 上面 还是 有 很多 研究 需要 做 的。
对对对, 就 看起来 他是 一个 挺 简单 的 人物, 但是 交给 机器 的 时候, 可能 还是 有 很多 我们 意想不到 的 一些 点 会 卡住。 而且 我 觉得 它 其实 也是 一个 交互 问题。 比如说 我 用 语音输入 的话, 那 他 如何 跟 我 互动, 然后 他 做 决策 的 时候, 整个 的 流程 怎么走 下来。 其实 感觉 还有 很多很多 的 产品 的 问题 需要解决。
对 这个 我 觉得 也 不是 一时半刻 能 解决 的。 但是 未来 这些 方向 我 觉得 都 非常 激动人心。
刚刚 提到 你 现在 工作 中 做 的 图片 模式, 可以 接入 到 语言 的 大 模型 中。 包括 我记得 之前 我们 有 嘉宾 到 我们 硅谷 101的节目 上 聊, 他们 就 也是 预测 未来 多 模态 的 一些 发展。 未来 我们 想要 去 画 一个 什么样 的 图, 可能 不需要 输入 pump 的 磁 了, 可以 有 更多 的 交互方式 去 告诉他 怎么 画。 好像 这是 大家 都 是在 研究 的 一个 方向。
对, 其实我 觉得 多 模态 一定程度 上 也是 刚 提到 的 让 人机交互 变得 更加 自然。 现在 我 觉得 首先 文本 已经 是一个 很 好的 人机交互 的 界面 了, 肯定 是 比 我自己 去 安装 一个 程序, 去 点 鼠标 什么的 更加 自然 的。 但是 有 很多 问题 并不是 文本 能够 很 方便 的 表达。 有些 时候 可能 给 A I 看 一个 图片, 跟着 这个 图片 讲会 清晰 很多。 就像 有些 时候 我们 人 在 交流 的 时候 讲 一大 段 话, 不如 就 直接 画 张 图 来 的 清晰 画 这个 图表。 所以 我 觉得 其实 多 模态 的 研究, 还有 包括 另外一个 语音, 有些 时候 通过 语音 直接 输入 也会 是一个 非常 自然 的 一个 界面。 所以 我 觉得 现在 多 模态 的 研究 也是 一定程度 上 在 推进 刚才 说 的 这个 人机交互 界面 的 可用 程度。 对, 这 是一个 很 重要 导向。
对对对, 然后 你 刚刚 提到 你 研究 的 另 一块 智能 体 的 决策 是 什么样 的。 我不知道 他 跟 我 刚刚 订机票 的 那个 例子 是不是 有 一些 相同之处。
对, 其实 刚才 你说的 这个 就是 一个 决策 的 过程。 现在 GPT4有 一定 的 决策 能力。 但 我 觉得 第一 不是 特别 强, 有些 复杂性 还是 做不了。 第二 它 不是 特别 可靠。 所以 怎么 让 这个 智能 体 做 一些 非常 可靠 的 决策, 而且 保证 它 按照 规则 来 安全 的 执行。 然后 我 觉得 这 一块 也是 很多 研究 的 一个 方向。
因为我 知道 jim 你 之前 是 研究 机器人 的, 然后 你为什么 从 研究 机器人 转向 了 多 模态? 它 这个 中间 是 有 比较 传承 的 一部分。
对我 觉得 机器人 其实 是 对于 多 模态 的 一个 很 好的 研究 的 载体。 因为 举 个 例子, 有些 任务 我们 想 传达 给 机器人, 那 完全 通过 文本 会 比较 困难。 但 有时候 我们 比如说 告诉 机器人 这件 事情 应该 怎么做。 可能 机器人 看着 我们 就是 看 了 一段 视频, 我们 就 表演 给他 看。
比如说 我 现在 想要 做 某 一道 菜, 做 个 番茄炒蛋, 这是我 做 的 方式。 然后 机器人 看完 以后, 他 就 也 能够 去做 番茄炒蛋。 这个 要 比 我们 详细 的 把 这 整个 过程 要 拿 一个 什么 材料 等等 全部 都 写 下来, 可能 会 更加 的 容易。 或者 是 我们 可能 又 需要 给 机器人 表演 一遍 这个 菜 该 怎么做, 同时 也要 有 个 讲解。 因为 像 这种 图文并茂 的 给 机器人 一个 输入, 然后 他 才能够 听得懂 我们 这样 一个 想要 他 做 的 任务。 所以 我 觉得 多 模态 是一个 对于 机器人 的 一个。
很 自然 的 界面 理解, 听起来 还是 一脉相承 的那 谢谢 tim, 你 有什么 要 补充 的 吗?
最后 我 就 想说, 我 觉得 人工智能 现在 基本上 是一个 几何 爆炸 的 速度 在 发展。 可能 我 今天 说 的话, 说不定 下周 就 有些 模型 已经 能 做到 了。 可能 我 今天 觉得 是 难题, 下周 有 篇 论文 出来 已经 解决 了。 我 觉得 这个 又是 一个 很 激动人心 的 时候。 然后 确实 也是 一个 让人 非常 感觉 有点 追不上 时代 的 步伐, 因为 时代 步伐 实在太 快了, 我也 在 努力 的 追赶。 也 希望 大家 听 了 我们 今天 这个 讨论 也 有所 帮助。
你是 一个 A I 研究者, 你 都 觉得 追不上 不凡, 那 我们 来 看到 就 觉得 更 快了, 对, 就 眼花缭乱。 最后 我 稍微 补充 一个 小 问题, 为什么 人工智能 会 在 今天 这样 一个 时间点 形成 一个 爆炸式 的 发展? 他的 几个 重要 的 贡献 点 跟 节点 是什么? 你 可不可以 帮 大家 简单 的 梳理 一下?
我 觉得 一个 是 算 力 和 数据, 这个 肯定 是 最最 重要 的。 然后 算 力 的话 用 G P U 能够 训练 这些 大 模型。 我 觉得 G P U 可能 也就 在 过去 几年 里面 能够 达到 一个 大 模型 所 需要 的 算 力。 所以 这个 也是 相当于 这个 人工智能 的 模型 的 能力, 也是 跟着 硬件 发展 而 发展 的。 然后 硬件 没有 到 的话, 我 觉得 训练 这些 大 模型 非常 的 吃力, 所以 这 是一个 时间点。
另外 就是 大家 意识到 通过 大量 的 下载, 就 从 网上 下载 文本 的 数据, 能够 让 这 模型 变得 越来越好。 可能 比如说 在 GPT3 之前, 大家 在 学术 圈 里面 做 研究 的 时候, 都 是用 几个 固定 的 数据集。 刚 提到 的 维基百科 也好, 联合国 的 一些 文件 也好 等等。 但 那些 数据集 上面 训练 的 模型, 它 不会 有 这种 涌现 的 智能, 因为 它的 数据 实在太 少了。 但是 后来 的话 GPT3就 告诉 我们, 通过 大量 的 下载 网上 的 文本 的 数据, 不断 的 增加 算 力, 你可以 有 这样的 一个 涌现 的 一个 智能。 所以 我 觉得 从 G P3 开始 的 时候, 大家 才 意识 到大 模型 是 一条 通向 一个 更加 通用 的 人工智能 的 路。 所以 就是 为什么 现在 是 这个 时间 的 节点。
简单 来说 就是 对 算 力, 对 数据, 好, 谢谢 jim, 今天 的 分享 非常 的 精彩。 另外 我 声明 一点, 今天 jim 所有的 发言 都 只 代表 个人观点, 不 代表 公司。 好。
谢谢。
另外 我们 这 期 讲 OpenAI 成 文章 史 的 内容, 也有 一个 更加 清晰 完整 的 视频 盘点。 大家 可以在 B 站上 搜索 硅谷 101来关注 我们。 这个 视频 不是 播客 的 复盘, 是 专门 为 视频 去 创作 的, 也是 我 个人 非常 喜欢 的 一期。 当然 也 欢迎 大家 去 关注 我们 开头 提到 的 B 站 整理 的 AIGC 的 优质 内容 合集, 建立 自己 关注 的 渠道 和 资源库。 关注 的 方法 是 播客 修 note 中点 链接, 或者 在 B 站 搜索 A I 工具 大法。 也 欢迎 大家 在 我们的 评论 区 推荐 你们 看过 的 高质量 的 A I 视频, 大家 来 相互 的 学习 一下, 这就是 我们 今天 的 节目。 如果 大家 对 我们的 节目 有 什么样 的 观点 和 看法, 也 欢迎 大家 给 我们 写 评论, 写 留言, 感谢 大家 的 收听, 谢谢。