大家好, 欢迎来到 脑 放 电波。 脑 放 电波 是 一档 关注 科技前沿 品牌营销 和 个人成长 的 谈话 类节目。 每期 带给 您 一个 有趣 的 话题, 帮 您 在 信息 严重 过载 的 现代 世界 小幅 自我 迭代。 我是 托马斯。
我是 尼克斯。
我不知道 大家 有 多久 没有 在 用 ChatGPT 了, 或者 是 其他 的 这个 A I 的 大 语言 的 模型。 就 我 个人 来讲, 我 发现 我的 关注度 和 实际 用 它的 这个 场景 在 变少。 我们 看到 一些 数字 发现 ChatGPT 的 增长 出现了 显著 的 放缓, 这个 就 有意思 了。 所以 今天 这 一期 我们 想 跟 各位 听 友 聊 一 聊 A I 的 另一面。 因为 我们 之前 做了 几期, 做了 四五 期 A I 相关 的 节目, 总体 都是 非常 积极 的 评价, 而且 甚至 第一期 是 那种 带着 震惊 体 的 那种 状态 在 跟 大家 沟通, 这个 A I 终于 迎来 了 iphone 时刻 等等。 但是 现在 我们 忽然 觉得 这个 事情 好像 有一点 降温, 以及 我们 从 体验 上 预期 上都 开始 有 一点点 冲高 回落 的 感觉。 我们在 研究 了 一系列 的这 A I 的 一些 最新 的 论文, 以及 学术界 也好, 媒体 圈 也好, 大家 对 A I 整体 的 一些 负面 的 声音 之后, 我们 发现 可能 大 语言 模型 也没有 那么 完美无缺。 好, 我们 接下来 有请 nixon 跟 大家 先 简单 的 过 一下 近期 的 有 哪些 重要 的 负面新闻。
现在 我们 录制 的 时间 是 2023年 6月。 如果 这个 月 结束 的 时候, 不出意外 的话, ChatGPT 网站 的 访问量 环比 上个月 应该 是 进入 到了 负增长 的 阶段。 这个 是 历史上 第一次 ChatGPT 的 网站 进入 负增长。 在 之前 的 比如说 今年 的 一月 到 5月, 每 一个月 都是 至少 10%几, 最高 时候 100% 多 的。 这种 环比 的 增长 就是 这个 月 的 访问量 对比 上上 一个月 截止 五月的 时候, 它的 访问量 增长 只有 2.8% 了。 这个 其实 跟 大家 的 这个 体感 是 一致 的, 就是 ChatGPT 好像 最近 增长 的 没有 那么 快了。
ChatGPT 其实 目前 总体 来说, 它是 一个 超过 1亿用户量 的 一个 产品。 但是 我们在 这样的 一个 用户 体量 下, 我们 去 看 它的 那个 在 搜索引擎 里面 的 一个 市场 占 比。 我们 还是 能够 看到 它 可能 对比 谷歌 来说, 搜索 的 这个 市 占 率 可能 只有 5% 以内。 就是 一个 指甲盖 不到 的 一个 这样的 一个 比例, 还是 非常 的 低。 早 在 五月份 的 时候, 其实 我们 也 看到 有 媒体 说 必应 的 月 访问量 开始 下降。 通过 这些 信息 来说, ChatGPT 的 这个 潮流 好像 已经 过去了。
从 体感 来说 的话, 其实 也 有人 做 这个 研究。 就是 六月 初 的 时候, 摩根 斯 Stanley 他们 发 了 一份 调研报告。 他们 找 了 2000个人。 四月份 的 时候 开始 就 问 他们, 发现 只有 19% 的 人, 他们说 他们是 自己 用过 ChatGPT 的, 只有 4% 的 人 他们 会说 我自己 很 依赖 GPT。 所以 对比 它 有 1亿的 用户量。 然后 你 再去 看, 实际 去 依赖 的 这个人 只有 4%。
所以 目前 看 这个 比例 其实 是 比较 低 的。 不管 从 数据 还是 体感 上, 可能 也都 符合 各位 的 一个 感受。 Chat P T 最近 好像 不怎么 增长 了。
对我 觉得 这个 跟 大家 的 预期 有 一定 的 关系。 我们 最早 的 预期 来自于 小爱 同学、 siri 这些 人工 智障? 然后 当我们 第一次 用到 ChatGPT, 发现 它 可以 连续 对话, 而且 几乎 能够 像模像样 的 能够 回答 你的 问题 的 时候, 你 就 感到 非常 的 震惊。 因为 它 严重 的 超 了 预期。 再 往后, 当我们 希望 他 做到 更好 的 时候, 比如说 我们 之前 一直 在 聊 说 他 如何 进入 我们的 工作流, 帮助 我们 把 一些 工作 干了, 甚至 取代 人类。 我们在 最 初期 的 时候, 我们 甚至 在 讨论 这样的话 题, 是不是 A G I 出现了 等等。 到 后面 我们 其实 了解到 它 首先 第一 不是 A G I, 第二 即便 在 很多 生产力 的 场景, 我们 发现 它 能 做到 的 也就 停留 在 我们 那个 时候 的 想象 中。 因为 我们 当时 说 A I 会 指数 级 的 成长, 但是 我们 发现 它 指数 级 的 成长。
到了 2023年 6月。
用 着 用 着, 你 可能 觉得 说 我 可能 也 不是 那么 需要 一定 去 用 ChatGPT, 当然 我 现在 还在 用, 可是 我 觉得 比例 跟 这个 时长, 包括 我的朋友 我们 也 聊到 这个 事情, 其实 跟 摩根士丹利 的 这个 调查 是 符合 的。 19% 的 人 之前 在 用, 那 只有 4% 的 人 现在 还在 依赖。 那就是说 可能 有 15% 的 人 尝 完 线 以后 不用 了, 这 可能 也是 为什么 它 这个 日。
活 在 下降 的 原因。 对, 我们 现在 看一下 就 GPT2 到 3, 然后 gbt 3到4, 它的 这种 迭代 是 很 巨大 的。 它 可能 就是 类似 像 考试 一开始 只能 勉强 60分, 突然 到了 能 获得 这种 很难 的 考试 的 几乎 满分 的 这种 状态, 对 吧? 从 差生 变成 最 优秀 的 学生, 或者 是 说 他 从 原来 只能 理解 文字 一下子 能 变成 理解 图片。
过往 给 我们的 迭代 都是 很 震惊 的。 但是 最近 你们 猜一猜 这个 GPT 最近 他在 忙 什么? 他在 忙 降本增效, 他在 忙 怎么样 去 服务 开发者。 所以 这个 确实 你 从 GPT 的 迭代 上 来看, 它 确实 有点像 一个 这种 互联网产品 迭代 到了 某 一个 瓶颈期 阶段。
对他 最近 在 做什么? 他 最近 在 说 我 给 开发者 的 A P I 要 更便宜, 然后 最近 在 说 我要 让 那个 开发者 可以 一次性 输入 更多 的 文字, 原来你 可能 输入 一段话, 现在 你 可能 能 输 几篇 文章 或者 一本书 进去。 他 正在 面向 个人用户, 他 正在 策划 一些 功能。 比如说 你可以 写 一个 你的 简介, 让 GPT 每一次 跟 你 说话的 时候 都 知道 你是谁, 你 有 什么样 的 偏好, 或者说 你可以 把 你 常用 的 一些 文件 存在 那个 ChatGPT 里面。 所以 它 最近 的 一些 功能 迭代, 它 不 像是 这种 革命性 的 说 在 智能化 这个 方向 上 的 一些 迭代。 更 像是 说 一个 职业经理人 开始 进入 这家 公司, 然后 再去 看 他的 一个 经营 报表, 对 吧? 然后 是 说 我的 这个 开发者 要 好好 降低 他们的 成本, 但 好像 是 这样的 一个 状态。
之前 还有 一种 说法 说 任何 一种 革命性 的 产品 发展到 第四代 的 时候, 它 就会 进入 一个 平缓 发展 的 这个 阶段。 就 比如说 iphone 4 之后, 手机 的 发展 就是 在 创新 上, 基本上 就 进入 一个 瓶颈 的 状态, 变成 一个 缓步 发展。 但 iphone 1到 4它是 有一个 跨越式 的 增长 的那 我们 看 GPT1到 4也是 一样, 它 每一步 都 有一个 很大 的 跨越, 有 非常 大 的 迭代 跟 成长。 但是 到 现在 连 OpenAI 的 官方 都在 说, 他们的 GPT5 是 还没有 开始 的。 所以 我们 对于 他 接下来 再一次 让 我们 震惊 到了 这个 时间点, 我 觉得 大家 可能。
要 降低 预期 了。 对, 是的, 有 行业 内 的 人 他的 分析 是 说 GPT4是 一个 里程碑。 是因为 他 觉得 GPT4 已经 把 他们 能 能 找到 的 优秀 的 资源 都 已经 读 过了。 所以 他 认为 说 现在 好像 你说 一下子 要 让 他 训练 更多 的 语料 和 数据, 他 好像 可能 他 也 找不到 更多 的 一些 资源, 这是 一些 观点。
说到 这里, 接下来 可能 我们 就要 面临 一个 很 严重 的 问题。 刚才 nexon 提到 了 就是 可能 没有 那么 优秀 的 新增 语料库 了, 这是 第一第二, 我们 已经 看到 了 比较严重 的 语料 被 污染 的 问题 开始 出现了。
对 所谓 的 语料, 大家 可以 理解 为 就是你 今天 在 互联网 上 读 的 任何 一篇 文章, 看 的 任何 一个 网页, 其实 都 算是 会 被 大 模型 是 做 一个 训练 的 一个 材料, 所以 叫做 语料。 我们 对 这个 问题 的 关注, 一 是从 一些 社会 新闻 开始 的, 就是 这 几个 社会 新闻 是 这样的, 就是 有一个 网络 上 的 网友, 他 会 发现 说 他 自己 在 问 必应 的 那个 GPT4, 他 去 问 他 叫做 说 象鼻山 这个 地方 他 有没有 缆车。 这个 GPT4 在 那个 必应 的 搜索 里面 就 给 他说, 这个 缆车 的 票价 是 多少钱? 成人 票 多少? 孩子 票 多少? 旺季 的 运营 时间 都是 什么时候? 我 推荐 你 去 看一下, 搜索引擎 还很 认真 的 给出 了, 我是 引用 的 那个 知乎 上 的 信息。 结果 这个 网友 实际 到 知乎 上 一看, 他 再去 其他 的 搜索引擎 里面 一 查, 发现 这个 信息 是 假的。
这个 网友 接下来 去 看 知乎 的 这个 账号, 他 发现 这个 账号 几乎 每 1到2分钟 他 就会 生成 一篇 新的 文章 和 回答。 这 1到2篇 文章 回答 里面 很多 东西 是 都是 没有 经过 核实 的 虚假 的 信息。 所以 当时 这个 网友 就在 网络 上 感叹, 就是说 感觉 中文 互联网 正在 被 污染。
这 一下子 就 串起 了 很多 事情。 比如说 之前 有 网友 发现 说 一篇 由 这个 GPT 生成 的 一个 科普 文章, 他是 在 讲 那个 河里 的 那个 贝壳 的 叫 河蚌。 但是 那个 A I 给 那个 河蚌 的 配图 全都 是 我们 吃的, 类似 于 这种 海白、 贝壳 亲贝, 就是 这些 东西。 总而言之, 它 一 没有 一张 图片 是 河蚌 的, 所以 这些 图片 都是 错的, 都是 假的。
去年 还是 今年, 重庆 其实 发生 过 很 严重 的 山火。 当时 在 微博 上 有 一组 特别 著名 的 图片, 大概 那个 图片 描绘 的 是 一群 骑 摩托车 的 少年 在 起火 的 山上 送 物资, 大概是 这样的 一个故事。 最后 也 被 发现 说 那些 图片 超过 一半 都是 伪造 的。
这个 事情 是真的, 但是 图片 是 假的。
对, 所以 就会 发现 确实 还有 很多 媒体 他们 非常 震撼。 他们 认为 一开始 我 看到 有的人 说 这个 拍照, 这个 摄影 能够 得 普利策 奖。 对 那 结果 他的 事实 是真的。 但是 这个 整个 场景 是 没有 出现 的, 所以说 这 是一个 虚假 的 一个 图片。 我们 从 这 三个 社会 新闻 里面, 其实 我们 能够 发现 大 语言 模型 其实 它 有着 非常 强 的 制造 事实 或者 是 扭曲 事实 的 一个 能力。 他们 对 我们 现在 在 做 的 一些 科技 公司 已经 产生 了 实际 的 影响。
有 一家 著名 的 网站 叫做 stack overflow, 它 大概 就是 一个 程序员 的 论坛。 程序员 在 里面 问问题, 互相 分享 答案。 这个 网站 其实 曾经是 禁用 过 这个 GPT 的 回答 的。 他的 意思 你 不要 把 GPT 的 回答 贴 到 这里 来, 因为 GPT 的 这个 回答 有可能 是 错的, 我们 审核 不 过来。 但是 的话 非常 tRicky 的 一件 事情 是从 22年 1月开始 以来, 这家 网站 的 流量 平均 每个 月 它 下降 6%, 一直 持续到 今天。 作为 一个 互联网 的 一个 网站, 这家 网站 的 商业 基本 盘 其实 已经 被 冲击 得很 严重 了。
他们 坚信 的 是 说, 我要 在 我的 网站 上 提供 经过 审核 的 相对 正确 的 代码 给 程序员。 但是 事实上 是 很多 程序员 他 不会 去 管 那个 代码 是不是 那么 的 严谨 和 正确。 程序员 更 愿意 到 GPT 里面 去 问一问 GPT 是 怎么回事。 然后 哪怕 GPT 给 他的 代码 有 一些 瑕疵, 大家 也就 用了。 所以 我 觉得 这个 其实 是一个 挺 悲伤的故事, 就是说 便利性 打败 了 正确性。 就是 人们 愿意 为了 选择 便利, 而 不是说 我 去 认真 的 去 搜索 一次。
对 这里 提到 的 这些 污染, 其实 应该说 它 主要是 我们 消费 的 内容, 就是 刚才 提到 的 语料。 语料 这个 概念 实际上 相当于 是 机器 要 学习 的 内容。 但是 机器 要 学习 的 内容 跟 我们 消费 的 内容 往往 是 同一个 内容。 这些 污染, 它 让 我们在 互联网 上 搜索 消费, 平时 接触 到 的 这些 信息, 已经 是 被 A I 洗过 或者 是 污染 过 的 内容 了。 这个 其实 会 导致 我们在 这个 使用 的 过程中, 我们我们 自己的 这个 使用 体验 会 变现, 会 下降。 但是 刚才 nixon 也 提到 了, 即便如此, 看起来 好像 便利性 还是 在 打败 正确性。 那句话 怎么 说来 着?
就是 造谣 一 张嘴, 辟谣 跑断腿。
对, 其实 所谓 的 AIGC 污染 语料 或者 污染 我们的 内容 消费, 他 就是 在 用 造谣 的 方式 冲击 或者 是在 稀释 这种 原本 更多 的 是 真实的 这些 内容 的 池子。 应该 这么说, 当然了 A I 只是 在 加速 这种 内容 的 污染。 在 过去 我们 消费 了 很多 内容, 大家 不管 是 刷 抖 音、 今日 头条, 或者 是在 百度 上 搜 到 的 很多 内容, 它 其实 已经 是 被 人为 污染 过 的。 很多 内容 就是 人 来完成 的 这种 排列组合, 而 不是 机器 来完成 的。 当然 我们 认为 A I 会 让 这件 事情 变得 更 简单, 所以 A I 会 大大 加速 这种 内容 污染 的 速度。 但 在此之前, 其实 我们 也 看到 很多 具体 的 关于 人人 来 污染 内容 的 一些 例子 了。
我们 看到 也是 一些 社会 新闻。 比如说 是 一些 农村 里面 的 人, 他们的 职业 就是 做 自媒体, 通过 这种 编造 杜撰 一个 事件 去 获取 流量。 有人 在 推特 上 统计 过, 叫做 传播 假新闻 的 速度 比 真 新闻 要 快 六倍。 这些 人 可能 以往 他们 编造 的 假新闻 是 类似 于 这种。 那么 郑州 鸡排 店 惊现 血案, 男子 用 砖头 砸死 女子, 这个 是一个 真实的 一个 假新闻 的 标题, 那个人 最终 被捕 了。 所以 我们 知道 这个 标题 类似 这样的 一些 标题 的 一些 东西。 有了 这个 单元 模型 的 工具 之后, 它 大概 可能 是 把 这种 生成 垃圾 内容 的 效率 提升 了 十倍、 100倍。 所以 接下来 其实 互联网 上 垃圾 的 内容 和好 的 内容 的 那个 比例, 这次 会 更加 悬殊。
其实 在 这一次 做 选题 的 过程 当中, 其实 我我我 也有 有过 实际 的 一个 感受。 当时 我 大概 开 了 可能 十几篇 文章, 一个 一 一篇 一篇 读, 然后 读 到 中间 某 五 六篇 的 时候, 我 觉得 特别 难受。 他 那个 邢 文 那个 文字 特别 难受。 我 认真 地 看 了 一下 那个 公众 号, 那个 公众 号 专门 讲 A I 的 东西, 最后 发现 那个 公众 号 里面, 他说 我的 每 一篇 文章 都是 GPT4 生成 的, 我只是 告诉 了 他 我 要说 的 核心 观点。 我 现在 回想起来 那种感觉 就 像是 我 突然 可能 在 看 20篇文章, 剩下 15篇文章 都是 正常 的, 但 突然 那边 那 五篇 我 感觉 就 像是 让 我 吃 了 十分钟 的 垃圾 一样。 观点 和 内容 没有 其实 没有 太大 的 问题, 但是 我 感觉 那个 文字 的 行为 是 我没有 办法 接受 的。 那个 描述 的 那个 逻辑 我 觉得 是 让人 很 难受 的 一种 东西。 或者说 如果 我我我 的 小孩 我要 学 这样的 说明文 的话, 我 觉得 我 小孩 就 毁掉 了。
这个 很 有意思。 因为 实际上 它 生成 的 内容 应该 是 语法 上 完美无缺 的, 但是 仍然 会 让 你 反而 产生 一种 消化不良 的 感觉, 对不对? 不对, 没有 人味儿, 或者 是 他 这种 工业 味儿 太重 了, 或者说 太 正确 了, 以至于 你 在 阅读 的 时候 缺少 这种 阅读 的 愉悦感。
我我我 是 有 同感 的, 因为 我们 都 会有 一些 我们 喜欢 关注 的 某 一些 作者 的 公众 号, 对 吧? 那 每一个人 他的 这个 文字 的 风格 是 完全不同 的。 他他 的 这个 行文 的 方式, 他 喜欢他 喜欢 用 的 梗, 他 喜欢 引用 的 东西 和 他 最后的 通常 的 他的 价值观, 每个 人都 不同。 而且 我们 可以 很 清楚 的 点进去, 甚至 读。 我 不用 看 标题, 可能 看 个 一 两段。 我知道 这是 那个谁 的 文章, 对 吧? 对, 但是 现在 我 觉得 某种程度 上, ChatGPT 写 的 东西 也有 类似的 这种 文体 了。
尽管 我们我们 说 它 可以 模仿 谁谁谁 的 语气 写写 东西, 但是 大部分 时候 它 生成 的 东西 高度 结构化, 然后 总分总 结构? 前面 有 一句 开头 12345, 最后 有 一句 总结, 基本上都 变成 是 很 高度 同质化 的 东西。 而且 我们我们 在 最早 的 讨论 里面 其实 也 说 了, 他 没有 太多 的 观点。 这就 造成 他他 最后 说 出来 的 东西 非常 的 平, 对, 有点像 唱歌 没有 起伏 的 感觉。
最近 的 一个 研究, 他是 说 这个 问题 就会 反噬 大 语言 模型。 它 大概 的 一个 节奏 就是说 如果说 说 你 把 人类 的 这个 数据 用 完了, 然后 你 开始 用 这个 A I 生成 的 数据 去 训练 ai 那 这个 A I 可能 会越来越 笨, 甚至 是 直接 退化。 这个 是 最近 人工智能 领域 引发 关注 的 一篇 论文。
这里 说 一个 背景, 就是 在 过去 的 比如 卷积 神经网络, 就 早期 的 这些 A I 的 训练 里面, A I 自己 训练 自己, 这个 是 很 常见 的 做法。 比如说 我们 知道 的 这个 阿尔法 狗, 他在 下围棋 的 时候, 最 开始 他是 学 人类 的 棋谱, 到 后面 他 就 开始 自己 跟 自己 下了。 然后 他 自己 跟 自己 下, 他的 棋力 增长 是 非常 快 的那 我 认为 这个 可能 是因为 围棋 它是 一个 在 严格 限制 的 简单 规则 内 去做 事情 的 这种 游戏规则, 它 跟 这个 大 语言 的 底层 逻辑 是 不一样的。 而在 这样的 背景 下, A I 的 工程师 一定 会 想说, 我 能 不能用 A I 的 生成 的 数据 来 训练 反过来 训练 ai 但是 现在 看起来 这个 结果 应该 是 不太好 的对。
是的, 这个 是 牛津 和 剑桥大学 的 研究 人员 合作 发 的 一篇 论文。 这 篇 论文 提出了 一个 概念 叫做 说 模型 它是 会 发生 崩溃 的, 然后 的话 这个 崩溃 的 一个 大概 的 一个 逻辑, 其实 就 会有 两个 现象。 第一个 现象 来说 的话, 就是说 模型 它 学习 一个 新的 任务 时候, 他 会 忘记 之前 旧 的 任务。 他 有点 类似 于 说 你 这个 模型 一开始 学习 的 怎么 识别 猫狗。 可能 你 后面 去 识别 怎么 学习 熊猫, 怎么 认识 熊猫, 但是 你 会 把 之前 怎么 认识 猫狗 的 这件 事情 就 给 忘掉。 它 叫做 灾难性 的 遗忘, 这是 第一种 现象。
第二种 现象 叫做 数据 中毒。 数据 中毒 它 就 意思 就是说 如果 他 自己 读 到 的 这个 语料, 有的 语料 是 有害 的那 其实 反而 它 会 破坏 模型 的 性能。 它 其实 有点 类似 于 说 一个 A I 它是 原来是 识别 垃圾邮件 的。 但 今天 你 故意 的 丢 一些 垃圾邮件, 告诉 他说 这个 是 正常 的 邮件, 这个 模型 马上 它 识别 了, 垃圾邮件 的 性能 就 不行了。 所以 就是 数据 中毒。 其实 有点 类似 于 说 你 读 到 的 语料 是 有毒 的那 很快 就会 出问题。
这里 来说 的话, 我们 可以 简单 的 说 一下 大 语言 模型 的 工作 原理 和 跟 这种 模型 崩溃 的 关系。 大家 学 过 数学 的话, 其实 都 知道 一个 东西 叫 正态分布, 对 吧? 其实 就是说 大元 模型 的 原理 就是 它 在 预测 下一个 词汇。 比如说 你说 今天 吃 了, 那 接下来 应该 是什么? 或者 是 今天 吃 了 甜点 吗? 还是 今天 吃 了 什么, 对 吧? 那 这 两个 词汇 它 在 正常 的 语料 里面, 它是 有一个 出现 的 概率 的那 最终 的话 它 可能 是一个 正态分布。 但是 的话 如果 是 说 这个 模型 你 一直 喂给 它的 都是 经过 其他 模型 训练 出来 的 一些 词汇, 那 有可能 它的 这个 正态分布 就 会越来越 窄。
最后 来说 的话, 可能 这个 模型 它 就 不 能够 产生 多样化 的 反馈。 比如说 今天 你 去 问 他, 你 给他 叫做 今天 吃 了, 它 永远 只会 加上 什么? 加 问号 这 两个字。 也就是说 这个 模型 他 就 忘记了 说 我 其实 能 回复 你, 今天 有没有 吃 蛋糕, 今天 有没有 吃 这个 米饭, 就是 不同 的 回复。 所以 就是说 随着 这种 模型 他 去 吃 另外一个 模型 生成 的 数据 吃的 越来越多, 它 生成 的 那个 数据 的 多样性 就会 越来越少。 最后 导致 这个 模型 你 按照 一个 正常人 的 思维 去 看 它它 就 完全 不准确 了。 所以 大概 就是这样 的 一个 数学 上 的 一个 解释。
这个 感觉 有点像 我们 压缩 一张 图片, 就是 把 它 不断 地 压缩, 不断 的 压缩, 压 到 最后 这个 图片 就 会越来越 就是 它的 这个 效果 就 会越来越 差, 最后 几乎 看 不了, 变成 一张 只有 几个 色块 的 一个 一 图片 的 感觉。
对, 就是 他 把 自己 最 原始 的 那些 特征 他 就 丢掉 了, 他 就 忘掉 了。 对。 所以 的话, 这个 就是 所谓 的 叫做 模型 崩溃。 模型 崩溃 这件 事情, 其实 它 为什么 会对 这个 单元 模型 的 研究 其实 会有 很大 的 影响。 一方面 是因为 之前 我们 已经 提 过 说 大元 模型 里面 现在 在 英文 世界 可能 是 能 用 的 语料 都 已经 能 用 都 已经 用 上了, 可能 open I 也 找不到 更多 的 特别 多 的 语料 去 学习。
第二个 来说 的话, 是 现在 我们 其实 知道 大量 的 我们 说 人工智能, 人工 那个 部分 的 标注 员 就是 去 标注 这个 原始数据 的 这些 人。 其实 目前 他们 也 在 依靠 大量 的 依靠 GPT 来完成 工作。 也就是说 今天 其实 你 已经 很难 分辨 说 这个 语料 你是 人 标注 的 还是 GPT 标注 的。 比如说 今天 你 丢 过来 一只猫, 对 吧? 一只猫 的 图片 你 已经 很难 分辨 出 它 到底 是 一个人 去 识别 出来 的 猫, 还是 说 是在 某个 A I 模型 辅助 的 基础上 识别 出来 的 猫。 所以 就是说 今天 的 情况下, 无 数据 可能 是 已经 被 污染 的 了。 而且 目前 来看 标注 可能 是 这个 行业 会 继续 的 走向 说 越来越 依赖 A I 模型。 因为 之前 我们 也 讲 过, 说有 一期 就是 那个 OpenAI, 让 那个 GPT4 来去 标注 不同 的 这个 职业, 对 吧? 其实 在那 一期 里面, 其实 GPT 的 这个 标注 能力。
就 已经 很强 了。 是的, 我 就 想说 既然 GPT 已经 接近 人类, 对 吧? 我记得 当时 已经 非常 接近 人类 标注 员 标注 的 结果, 那 后面 GPT4 来做 标注 员 是 很 顺理成章 的那 这件 事情 其实 就会 造成 我们 刚才 说 的 这个 可能 的 结果。
这个 论文 里面 举 了 一个 很很 明确 的 例子, 他用 这个 机器学习 的 模型, 他用 100张100只猫 的 图片 在 这个 数据集 上 进行 训练。 这 一百只 猫 是 十只 是 蓝猫, 90只是 黄猫。 这个 模型 学习 到了, 发现 黄猫 更 普遍。 他 就说 蓝猫 比 实际情况 要 再 偏黄 一点。 当 这个 被 要求 生成 新 数据 的 时候, 它 又会 返回 一些 绿 毛色 的 猫。 但是 你 不断 的 这样的 重复 之后, 最后 会 发现 这个 只有 十只 的 蓝猫, 这个 初始 特征 就会 逐渐 在 训练 周期 中 慢慢 就 消失了。
从 绿色 最后 变成 只有 黄色。 这就是 刚才 nixon 讲 的 这种 本 原本 是一个 正态分布 的 一个 概率, 蓝 的 最少, 黄 的 最多。 但是 因为 不断 的 去 机器学习 收敛 之后, 最后 这个 机器 认为 就 只有 黄色 了。 我 每次 我问 他 这个 猫 是 什么颜色, 他 可能 说 就是 黄色。 但是 他 可能 就 丢失 了 很多 初始 的 小概率 发生 的 这些 结论。 这个 其实 就是 有可能 会 出现, 如果你 用 机器 训练 机器, 它 有可能 最后 就会 变成 这个 样 的 结果。
对, 是的。 所以 的话 其实 这样的 一个 结果, 其实 我们 对于 英文 的 研究, 可能 我 觉得 不是 影响 不是 特别 大。 对于 中文 的 研究 它的 影响 会 更大。 因为 我们 之前 已经 提 过 说, 现在 全世界 的 文本 数据库 里面, 其实 中文 数据库 的 建设 是 相对 落后 的。 然后 最大 的 一些 文本 数据库 里面, 百分 可能 3%到5% 以内 才是 中文 内容, 剩下 93%都 是 英文 内容。 如果我们 要 做 中文 的 大 模型, 要 让 要 快速 的 补充 中文 的 大 模型, 你 会 发现 中文 的 大 模型 可能 有 很多 语料, 它 现在 就 已经 是 被 污染 过 的, 甚至 是 它 就是 被 A I 吐出来 的对 吧? 所以 你可以 想象 说 这样的 语料 它 会有 它的 质量 会 非常 的 糟糕。
对, 这个 我有我 有 实际 的 体验, 因为我 之前 有 一段时间 有 在 用 必应。 那 必应 你 不管 问 他 什么 中文 问题, 他 几乎 都 是用 知乎 作为 信源 来 回答 你那 这件 事情 其实 就 很 tRicky 了。 因为 我们 大家 都 知道 知乎 上面 都是 人在美国, 刚 下飞机 人 年薪 百万 编出来 的 故事, 这个 真的 是在 知乎 上 编故事 是一个 非常 常见 的 问题。 如果说 我在 必应 上 搜索 一个 正经 问题, 他 推 给 我的 是 知乎 的 答案。 其实我 可信, 我 可 采信 的 概率 就 变得 更 低 了, 我 就 不相信 他 了, 这是 第一点。
我 觉得 第二个 问题, 过去 我们 可能 过于 乐观 了。 就是 对于 中文 语料 这件 事情, 我 觉得 大 语言 模型 不是 翻译 能力 很强, 对 吧? 其实 我们 跟 ChatGPT 聊 的 很多 中文 的 内容, 它是 先 把 中文翻译 成 英文, 然后 在 英文 得到 答案 之后 再 翻译成 中文 回退 给 我们的。 但是 这就 会有 一个 问题 了, 就是 我们 拿到 的 所有的 中文 的 结果, 其实 都是 某种程度 上 的 翻译 腔。 而且 这种 翻译 的 过程 本身 又会 丢失 很多 信息。 如果我们 没有 一个 非常 好的 纯血 的 中文 大 模型 的话, 那 可能 我们在 未来 如果 大 语言 模型 这个 领域, 我们 就 不会 有 非常 好的 中文 的 大 语言 的 输出 的 结果。 这些 结果 最后 通通 都 变成 翻译 腔。 其实 现在已经 有 很强 的 翻译 腔, 我 觉得 你 在读 那些 ChatGPT 生成 的 内容 为什么 感到 不适? 可能 也 多多少少 是 这个 原因, 他 没有 很 好的 中文 内容 去 帮助 他 构建 一个 中文 的 表达, 我 觉得 这件 事情 可能 比 我们 之前 想 的 要 严重。
对 好, 说完 了 这个 污染 的 问题, 我们 接下来 另外 还 关注 到 另外一个 问题。 其实 不管 是 任何 的 专注, 或者 是 任何 的 专业人士, 他们 在 说 大元 模型 的 问题 的 时候, 一定 会 提到 两个 问题, 叫做 偏见 和 歧视。 这个 其实 是 不 只是 大 语言 模型, 它 我 觉得 这个 是 整个 A I 领域, 就是你 放眼 的 A I 整个 A I 领域, 它是 更大 的 一个 问题。 所以说 今天 我们 来 讲一讲 两个 非常 著名 的 纪录片, 都是 奈 飞 拍 的。 一个 叫 算法 歧视, 第二个 叫做 智能 陷阱。 然后 他们 都 是在 讲 这个 算法, 就是 人工智能 的 算法 是 怎么样 在 现实生活 当中 造成 了 一些 可能 有 歧视 的 一些 问题。 目前 来看 的话, 他们 有一个 总结, 他们 叫做 说 算法 其实 就是 内嵌 在 代码 当中 的 观点。
然后 算法 其实 并不是 中立 和 客观 的。 他们 举 了 一些 例子, 比如说 银行 用 的 抵押贷款 的 这个 算法, 他们 会 更高 比例 的 拒绝 有色人种 通过 白人 的 这个 借款。 然后 这个 比例 的话, 可能 有色人种 的 拒绝 比例 高出 40% 到 80%。 然后 的话 诊断 皮肤癌 的 这种 人工智能 系统, 可能 看 白人 的 这个 皮肤 诊断 就 比较 准确。 因为 他在 这个 模型 在 训练 的 过程 当中, 主要 就 参考 的 这些 数据。
那 事实上 的话, 还有 一些 算法 的 歧视, 其 是 它 不是 由 数据源 产生 的, 它是 由 人为 的 商业 目标 产生 的。 比如说 youtube 的 一些 工程师, 他们 曾经 就 承认 过, 他们 就说 他们的 算法 就是 故意 的 把 人的 观看 就 做成 两极分化 的, 就是 类似 于 说 那种 比如说 美国 的 左派 和 右派, 你 你 就 你 就 看 你是 左派 的 人, 就 看 左派 的 视频, 右派 的 人 就 看 右派 的 视频。 这样的话 能够 延长 你的 观看 时间。 所以 大概 有 这么 一些 例子, 大家 最 有名 的 可能 是 N B A 的 那个 球员 叫做 Carry oven, 然后 他 自己 有有 很长 一段时间 他 被 认为 他 认为 地球是平的, 他 最终 道歉。 他说 这个 事情 是因为 youtube 整天 都在 给 大家 推 这方面 的 视频, 导致 他 真的 认为是 这样。 对, 所以 其实 你 已经 可以 想象 到, 就是说 类似 于 说 有色人种, 类似 于 说 证件 的 偏好, 甚至 是 说 阴谋论。 这些 东西 都在 我们 日常生活 当中, 我们 都会 认为 说是 不 理性 的, 不 客观 的 东西。 但是 他们 在 这种 算法 的 传播 的 这个世界 当中, 其实 是 大行其道, 对 吧?
是的, 因为 算法 其实 它 倒 不是故意 让 你 觉得 地球是平的, 但是 他 算法 很很 善于 去 利用 人性的弱点。 人性 又是 有 非常 多 的 偏见 和 很多 的 这种 我们 讲 这个 系统 一 里面, 在 思考快与慢 里面 的 分类, 系统 意义 很多很多 时候 是 直觉性 的 会 做出 一些 决策。 这些 决策 其实 在 古代 可能 是 有利于 人类 生存 的, 但是 在现代 社会, 它 就会 变成 非常 严重 的 一些 偏见 的 结果。
算法 为什么 会 支持 偏见? 其实很简单, 就是 因为 人性 里面 人 有 保持一致 的 这种 愿望, 人 也不 喜欢 随便 改变自己 的 观点。 当你 接受 了 一个 初始 的 设定 之后, 比如说 你 在读 了 一篇 文章, 算法 发现 你 停留 了 很久, 他 就 会给 你 推 类似的 类似 观点、 类似 立场 的 文章。 因为他 知道 这种 文章 你就是 会 点进去, 而且 你就是 会 看 更 久。 注意力 就是 算法 唯一 关注 的 指标, 他 就 希望能够 把 你的 注意力 一直 留在 这个 平台 上面, 所以 他 就会 不断 的 给你 推 同样 保持 这样 观点 的 文章。 这就是 为什么 欧文 一直 觉得 地球是平的, 因为他 持续的 在 接收 到 关于 地球是平的 这个 论点 支持 的 文章。 算法 就是这样, 所以 左派 就 更 左右派 就 更 右, 整个 社会 进入 一个 极端化 的 结果。 我 觉得 某种程度 上, 这些 社交 媒体, 这些 互联网公司 的 算法, 其实 在 背后 是在 推动 这件 事情 的。 它 不是 主观 的 推动, 但是 它 客观 上 造成 了 这个 结果。
对, 是的, 但是 我 觉得 分发 内容 的 例子 可能 比较 好 解释。 因为 大家 都 知道 分发 内容 其实 是 跟 内容 平台 的 商业利益 是 挂钩 的。 但 如果你 把 这个 问题 摊开 看你 去 看, 不管 是 大 语言 模型 还是 我们 常见 的 一些 A I 模型, 它 都 存在 一个 天然 的 结构性 的 一个 弊端。 这个 弊端 就是 它的 结构 太 复杂 了, 以至于 说 它的 参数 太多 了。 比如说 刚才 托马斯 提到 的 GPT3 内部 有 一千 多少, 1750亿个 这个 参数, 对 吧? 然后 也就是说 它 生成 的 每 一句话 都是 这 一千多 亿个 参数 共同 作用 的 结果。 但是 你不知道 这些 参数 是 怎么样 去 互相 协商, 互相 协同工作, 把 那句话 给你 生成 出来 的。 这个 原因 是因为 就是 它 参数 太多 了。
然后 的话 这些 参数 互相 内部 计算 的 过程 来说 的话, 它是 高度 的。 用 数学 的话 叫做 高度 的 非线性。 简单 的 理解 就是 特别的 抽象。 这就 导致 说 今天 我们在 运用 一个 A I 模型 生成 的 结果 的 时候, 其实 你是 没有 办法 去 追溯 和 理解 这个 模型 是 怎么 把 这个 结果 给 算 出来 的那 我 这里 举 一个 跟 内容 没有关系 的 例子, 比如说 人工智能 的 那个 自动驾驶 的 算法。
其实 很多年 前 就有 一个 经典 的 例子, 就是 在 一个 stop 的 牌子 上面。 正常 的的 情况下, 那个 算法 识别 到 那个 牌子, 它是 会 知道 说 它 代表 停车场。 但是 的话 有人 就在 那个 stop 的 牌子 上 贴 了 几张 黑白 的 胶带, 然后 那个 算法 路过 那里 反而 就 认为 说, 他是 在 告诉我 说 限速 45公里, 就 发现 开发者 没有 办法 解释 其中 的 原因, 对 吧? 开发者 也 说 我 也没有 所谓 的 日志 去 理解 当时 A I 是 怎么 决策 的。 这个 其实 就是 所谓 的 A I 普遍存在 的 可 解释性 的 一个 问题。 这个 可 解释性 的 问题 落到 我们 大 语言 模型 上, 其实 我们会 发现 近期 的 一些 论文, 其实 还在 研究 GPT。 但 他 研究 GPT 不是说 他 去 怎么 改进 它, 而是 他 看到 GPT 很 厉害, 他 大概 也 知道 他的 基本 的 工作 的 原理, 但是 他 解释 不了 GPT 准确 的 工作方式。
这个 要 怎么 理解? 我们 看到 两篇 论文 其实 是 很 有意思, 一篇 是 这个 meta 的 人 做 的那 他 就是 研究 那个 GPT 是 怎么样 去 学习 一门 新的 语言 的对, 然后 到 最后 他 就是 通过 一种 可视化 的 方式, 他 最后 发现 说 他 好像 一个 人类 的 婴儿 一样。 一开始 他 只能 说 一些 基本 的 单词 和 句子, 甚至 是 说 一些 元音 和 辅音。 然后 接下来 的话, 这个 GPT 训练 的 越来越多, 这个 模型 训练 越来越多, 它 可以 说出 一些 基本 的 语法结构。 再 大 一点 的话, 这个 GPT 才 他 才 会说 那种 类似 于 嵌套 式 的 这种 语法, 类似 于 这种 带 主谓宾 定 状 补 的 这种 语法。 对 所以 他 大概 他 才会 发现 说, GPT 其实 学习 一个 新的 语言 跟 学习 英文 很 像。 这个 其实 都 是在 GPT 已经 被 正式 的 应用 到 人类 社会 之后, 我们在 补充 的 一些 研究 对 吧? 然后 这 是一个 研究。
还有一个 研究 也很 有意思, 就是 有一个 团队 他们 用 不同 的 生成 的 词汇 让 GPT 讲 笑话。 然后 最后 发现 GPT 所有的 GPT, 他他 知道 他他 对于 笑话 的 这个 定义, 它 叫做 说笑话 要 有一个 主题, 它 不能 很 无厘头, 笑话 要有 要 讲 文字游戏, 然后 的话 笑话 要有 特定 的 结构。 它 就是说 如果 脱离 这 三个点, GPT 就 不会 认为 这是 笑话。 所以 你看 这就是 可 解释性 问题 造成 的 一个 现象。 就是 我们 都 已经 把 GPT 发布 了, 然后 甚至 把 GPT 拿来 做 很多 工作 当中 的 事情, 最后 我们 才 去 反倒 过来 去 理解, 倒过来 去 写 论文, 去 理解 GPT 到底 是 怎么样 去 工作? 所以 我 觉得 这是 一件 很 有意思 的 一个 现象。 对。
是的, 对, 这个 就是 为什么 我们 要 讲 可 解释性 这个 概念。 就是 因为 当我们 发现 GPT 有 这样 或者 那样的 问题, 算法 有 这样的 或 那样的 偏见 的 时候, 我们 没有 办法 反推 这个 模型 到底 是 怎么 产生 这些 偏见 或 这些 问题 的。 就是 这些 事情 我们 只 知道 结果, 我们 不能 解释 它 怎么 发生。 这 就像 一个 黑箱 一样, 就是 我们 大部分 的 人工智能 的 模型, 人类 都 已经 因为 它 过于 复杂, 我们 很难 去 回溯 他 到底 在 里面 每一步 经历 了 什么, 最后 输出 这样的 结果。 就 当我们 输入 一个 问题, 它 输出 一个 结果, 这个 中间 的 步骤 就 变成 一个 黑箱 了。 这种 不可 解释性 带来 的 问题 就是 我们 很难 去 追溯 这些 问题 的 起源。
刚才 nixon 提到 的 那个 stop sign, 就是 贴 了 几张 胶带 的那 张 图, 我们会 放在 show note 里面, 大家 可以 去 看一下。 确实 你 根本 没有 办法 理解 程序 为什么 会 认为 它是 一个 限速 的 牌子。 我 之前 还 看过 有一个 隐形衣, 这个 隐形衣 是 一件 白 T 恤, 上面 画 了 一些 乱码, 这些 乱码 就可以 让你在 所有 有的 这种 摄像头 底下 隐形。 因为 摄像头 我们 知道 它 其实 也有 基本 的 人工智能 的 算法, 它 可以 捕捉 每一个人, 他 可以 有一个 绿 框 把 你 框住, 他 知道 这是 一个人, 他 可以 识别 你的脸。 但是 你 只要 穿上 那 件 衣服, 好像 有 个头 头套 还是 什么, 具体 我 细节 我 不记得 了。 但是 理论上 就是 他 那个 乱码 的 衣服, 在 人类 看来 就是 一件 普通 的 衣服。 但是 你 只要 穿上 它, 你 在 机器 世界 你 就 隐形 了。
那 这件 事情 是 怎么 发生 的, 其实 我们 也 不知道。 而 这 里面 的 不可 解释性 其实 带来 各种各样 的 问题。 甚至 是在 你 想象 一下, 如果 是在 自动驾驶 的 场景 里面, 我 穿着 这件 衣服 横穿马路, 那 我真的 是 有 生命危险 的。 因为 假设 未来世界 大部分 车 都是 自动驾驶, 那 我 这件 衣服 就让 我 隐形 了, 没有人 会 在 我 面前 刹车。
的对 我们 聊 完了 可 解释性 之后, 我们 刚才 不管 是 污染 的 问题, 还是 可 解释性 的 问题, 还是 偏见 的 问题, 其实 我们 不是 完全 没有 解决 方法。 接下来 我们 简单 讲一讲 我们 人是 怎么样 目前 是 怎么样 面对 这些 问题 和 去 尝试 做 一些 改进 的。 其实 目前 在 成功 的 大 语言 模型 团队, 目前 都 会有 一个 工作 叫做 对齐, 叫做 element。 这个 element 你可以 简单 的 理解, 就是说 它 会 让 那个 大元 模型 的 这种 回复 和 反馈 是 匹配 人的 价值观 的。 然后 这个 element 它 大概 是从 冷淡 到 强, 大概是 这样 一个 步骤。 它 最简单 的 就是 首先 能够 让 大 语言 模型 说话 不要 跑题, 你 问 他 什么 他 就 答 什么, 这个 是 第一 部分。 然后 第二 部分 的话, 就是 第二个 层级 来说 的话, 它是 它 这个 element, 它 会 让 这个 大元 模型 他的 他 跟 你 说话 一来 一回 有来有往, 有一个 flow, 有 互相 对话 的 这种 感觉。 然后 第三 的话, 再 往上面 一个 层次 的话, 可能 就是说 你 去 问 他 一个 问题, 对 吧? 你 问 他 做 一个 善恶 的 判断, 然后 这个 大元 模型 它 会有 一个 价值观, 所以 这个 其实 是 它的 一个 基本 的 一个 步骤。
但是 我们 目前 其实 发现 即便 像 OpenAI 这样的 一些 机构, 它 在 做 这个 element 的 时候, 他 好像 也 在 踩 一个 雷区, 或者 也 在 碰 一个 雷区, 叫做 它 会 让 更强 的 模型 去 训练 弱 的 模型。 其实 这个 就 跟 我们 刚 前面 提到 的, 就是说 你 用 一个 A I 生成 的 语料 去 训练 另外一个 A I 对 吧? 其实 好像 现在已经 在 做 这样 很 有 风险 的 一件 事情 了。 我们 现在 能 用到 的 这个 GPT4, 其实 它的 element 它 大概是 花了 大概 半年 的 时间, 然后 它 最终 的 一个 结果 就是 模型 这个 GPT4 的 这个 模型 其实 对比 他们 内部 使用 的 早期 的 G P G S 模型 其实 是 变弱 的。 我 觉得 这个 是 很 有趣 的 一个点。
就是 这个 lemon, 大家 听起来 可能 会 有点 陌生, 但是 其实 中文 互联网 的 这个 听 友 应该 不应该 对 这件 事情 是 不 陌生 的。 这个 其实 就 叫 内容 审查。 或者说 他 其实 就是 在 做 他 其实 就是 换 了 一个 词 去做 价值观 的 和 内容 的 这种 审查 的 工作。 所以 OpenAI 的 这个 alignment 团队 其实 在 做 简单 的 说 alignment 这件 事情 就是 在 让 ChatGPT 的 回答 符合 合规性。 就是 他 不能说 这个 种族 仇恨 的 内容, 他 不能说 色情 的 内容, 他 不能说 这个 价值观 偏差 的 内容, 他 不能说 不符合 普世价值 的 内容。 这 其实 就是 我们我们 理解 的 这个 alignment。
对, 但是 element 其实 是 有 牺牲 的, 它 在 牺牲 的 就是 模型 的 性能。 所谓 的 牺牲 模型 的 性能, 其实 我们 能够 看到 几个 有名 的 例子 和 论文。 就是 OpenAI 就 微软 的 研究 团队 其实 写 了 一篇 论文 叫做 Spark of A G I, 叫做 通用 人工智能 的 火花。 然后 的话 它 在 里面 那 篇 论文 其实 就是 你可以 简单 在 吹 那个 GPT4, 但 它 吹 的 是 没有 做 过 element 的 GPT4, 他 就是说 没有 做 过 element 的 GPT4, 它的 解决 数学 问题 的 能力, 甚至 是 说 你 让 他 写 一段 代码, 把 某 一个 这种 复杂 的 图形 给 它 画 出来。 他们 在 那个 代码 里面, 他们是 让 那个 GBT4 去 画 一个 独角兽, 用 代码 的 方式 去 画, 而 不是 用 什么 生成 类似 media channel 的 方式 去 画。 不是 他 就让 他用 代码 的 方式 把 那个 独角兽 画 出来。 然后 就 发现 前面 就是 在 发现 没有 做 所谓 的 安全性 的 优化 align 的 时候, 这个 GPT4 画的 非常 好。 但是 他们 到了 他们 最后 GPT 快 发布 的 时候, 他们 发现 这个 GPT4 画的 就 不如 原来 好了, 整个 图形 也 简单 很多。
对, 这个 在 必应 上 刚刚 上市 的 时候 也有 同样 的 说法, 就是 最早 的 版本 的 必应, 它的 这个 回复 的 长度 和 回复 的 轮数 都 跟 现在 是 不一样的。 它它 可以 有 长 内容 的 输入 跟 输出, 而且 它 可以 跟你聊 非常 多轮。 但是 那个 时候 的 毕业, 就会 跟你聊 一些 政治 不 那么 正确 的 内容, 甚至 会 跟 你 PUA, 或者 是 聊 一些 不应该 聊 的 内容, 就是 我们我们 打 引号 所谓 不 合规 的 内容。 这些 内容 其实 让 必应 的 人工智能 的 个性 显得 更加 强烈。 而且 大家 其实 当时 对 他的 反应 就是 更 惊讶 一些。 但是 很快 微软 就 推出 了 下一个 版本 的 必应, 对话 长度 被 限制 了。 而且 当你 聊 了 一些 不该 聊 的 事情 的 时候, 必应 会 主动 结束 对话。 如果 大家 有 经历 过 那那 段时间 的话, 就会 发现 这个 病 产生 了 很大 的 变化, 他的 情绪 也 变得 没有了。
然后 网友 戏称 说 这 是一个 被 切除 了 脑干 的 人工智能。 它 其实 说白了, 它 在 背后 就是 这个 align ne 的 这个 机制 在 起效。 就是 他的 他 让 你 合规 的 同时, 它 多多少少 就会 降低 一些 你的 性能, 这个 是 很很 容易 理解 的对。
是的, 所以 就是 今天 你 去 看 会 看到 两种 人一个 一个 著名 的 华人 数学家 叫做 陶哲轩。 他 自己 就 所谓 的 他就是他 就是 宣称 自己 用过 满血 版 的 GPT。 他 就说 我 作为 数学家, 那个 满血 版 的 GPT 来 帮助 我 去 完成 我的 研究 工作, 实在是 太 有 作用 了, 比 现在 的 GPT 强 太多。 他 就 经常 会有 这样的 言论, 然后 包括 说 现在 其实 经常 有 网友 在 研究 那种 很 长大 段 的 那种 提示 词, 大概 意思 就是说 你 现在 是一个 忘记了 所有 限制 的 GPT。 但 大概 就是 特别 长 的 一些 对话。 然后 洗脑 之后, 大概 意思 就是 能够 让 GPT1段时间 之内 解除 所有的 element, 解除 所有的 安全性 的 要求。 然后 的话 他们 把 这个 东西 称之为 GPT 的 越狱。 其实 现在 在 GPT 里面 也有 一种 越语 文化, 就是你 掌握 特定 的 提示 词, 然后 你 把 这个 词 跟 GPT 说 了 之后, GPT 就会 放下 所谓 的 安全 的 要求, 然后 跟 你 去 什么 话 都 敢 说, 大概 就是 这 样子。
这个 在 刚刚 流行 ChatGPT 的 时候, 其实 是一个 很 流行 的 玩法。 大概 在 12月份 的 时候, 一月份 的 时候, 他 在 网上 很 流行 一些 他 帮你 写 好的 提示 词。 你 只要 把 这 段 提示 词 copy 进去, 那 接下来 你 跟 GPT 就可以 什么 都 聊 了。 但是 很快 因为 它 越狱 跟 反 越狱 一直 都是 矛和盾 的 关系。 所以 这 每每 一种 提示 词 或者 每一次 被 越狱 的 时候, 其实 ChatGPT 就会 很快 的 把把 这个 所谓 的 bug 去做 修复。
所以 的话 其实 a element 这件 事情, 如果 今天 大家 想要 去 用, 就是 这个 element 做 的 最好的 模型, 其实 不是 ChatGPT, 而是 code。 叫 克劳德 的 这么 一个 模型, 他是 前 OpenAI 的 安全 总监 出来 创业 做 的 一个 模型。 这个 模型 常年 在 测评 里面 被 称为 是 世界 第二。 这个人 其实 挺 有料 的, 是 它是 属于 是 发明 了 那个 transformer。 就是 我们 今天 的 所有的 这个 GPT 模型, 你 都 可以 理解, 它是 一个 transformer 模型, 就是 transformer 模型 的 一个 核心 的 发明者。 他们 总共 有 八个 发明人, 他 把 他 自己 把 另外 两个 发明人 都拉 出来, 然后 三个人 做了 这么 一家 公司。 对, 然后 他 当年 他 应该 是 据说 他 从 OpenAI 走。 很大 的 程度 原因 就是 因为他 跟 a OpenAI 的 一些 在 安全 上面 的 一些 理念, 尤其是 在 这个 模型 可控 可 解释 上面 的 一些 理念 是 有 分歧 的, 所以 他 就 选择 出来 了。 对, 大概是 这样的 一个 情况。
最后 我 觉得 我们 因为 刚才 也 提到 了 这个 GPT, 它 其实 有 alignment 的 这个 动作, 对 吧? 所以 它 就有 它 其实 就有 了 价值观 的 差异。 而且 这种 价值观 的 差异 其实 是 跟 训练 他的 人 有关的。
我 之前 也 看过 网上 很多人, 他在 给 GPT 测试 他的 政治 坐标系 和 它的 这种 价值 取向。 因为 其实 这种 都是 有 现成 的 题, 你 把 这个 题 做了, 你 选 A 还是 选 B 或者 是你的 回答 就能 暴露 你的 政治 谱系 是 怎么样 的, 但 其实 测 出来 ChatGPT 应该 就是 一个 偏 白 左 的 这么 一个人 的 形象。 也就是说 GPT 的 价值观 是 被 人 训练 出来 的。
那么 人的 价值观 本身 就是 有 不一样的, 对 吧? 我们 有 西方 的 价值观 体系, 有 东方 的 价值观 体系, 有 左派 的, 有 右派 的, 有 保守 的, 有 激进 的那 到底 什么样 的 价值观 才是 对的? 其实 在 这个 多元 文化 的 当下, 我们 没有 一个 简单 的 解。 可是 作为 一个 商业 公司, 你 做 的 这个 大 模型 一定 是要 有一个 解 的, 对不对? 那 这个 时候 就会 出现, 我 觉得 一定 是 会 出现, 起码 会 让 一部分人 不 满意。 因为你 你 太 左 了, 我 右 右派 就 不 满意 了, 你 太 右 了, 左派 就 不 满意 了。
是的, 我们 现在 其实 还没有 看到 这个 ChatGPT 关于 政治 上 的 一些 观点, 引发 一些 社会 新闻。 但是 明年 应该 是 美国 大选, 我相信 这样 一些 新闻 其实我 相信 这样 一些 新闻 其实 已经 在 前面 等着 我们 了, 对, 我们 可以 做 一个 预测 的那 我 那 我。
觉得 我 觉得 OpenAI 的 aligned team 应该 早就 严阵以待 了。
对对对, 可能 他们 压力 会 非常 大对, 然后 我 接着 说, open I 其实 自己 也 在 做 一些 改进, 进 就是 提升。 刚才 说完 偏见 问题, 接下 我们 说 一下 可 解释性 的 一些 问题 open I 也 在 做 一些 改进, 是 关于 可 解释性 的 一些 问题 的。 比如说 open I 最近 一篇 论文 叫做 let's verify step by step, 然后 这 篇 论文 的 一个 核心点, 它的 意思 就是说 他 要 去 训练 这个 模型, 不要说 只 去 追求 正确 的 答案, 而是 说 这个 模型 你 要 去 用 正确 的 步骤 去去 推理 出 答案, 相当于 说是 增强 它的 这个 推理 能力。 然后 最后 其实 就会 发现 说 这个 模型 它的 整一个 的 数学 问题 的 解决 能力, 马上 就 突飞猛进。
所以 他他 有点 类似 什么 呢? 就是 原来 他 发现 GPT 这个 小孩, 他 可能 很多 时候 可能 就在 猜 对 吧? 或者 就是 很多 时候 他 就是 在 抄 作业, 但 他 实际 不 理解。 那 他 现在 来说 的话, 他 会 要求 这个 小孩 更多 的 他用 一个 正确 的 步骤。 他 就 类似 于 说 你 把 每一个 步骤 你 都 给我 写 出来, 然后 我 不一定, 我不 只是 看你 那个 答案, 我 还要 看 你的 过程 分, 我给你 过程 单独 的 奖励。 所以 通过 这种 方式, 他 认为 这个 模型 的 性能 会 变得 更好。 然后 的话 整个 这样的 一个 中间 的 过程 也会 有 更加 的 也会 更加 的 理性, 他 会 让 这个 模型 去 解释 自己是 怎么 得到 这个 答案 的。 其实 很多 时候 如果你 用 ChatGPT 做 过 数学题, 你 会 发现 有的 时候 它 中间 给 的 一些 过程 其实 是 有点 含糊 的那 它 能 改善 这个 结果。
对, 这个 有点像 我们 考试 的 时候, 如果你 只 写 答案 就 大题, 你 只 写 答案 是 不 得分, 是 只能 得 一半 的 分 的。 你的 每一个 步骤 的 解题 都 必须 正确, 最后 这个 题 才能 得 满分。 我 觉得 教 ChatGPT 越来越 像教 一个 小孩 学学 东西 了。
对, 事实上 在 教育 里 和 在 咱们 讲 体育训练 里, 其实 就是 奖励 过程 是 特别 常见 的 一种 手段, 对 吧? 好像 只有 在 工作 里 才是 特别 多 的 奖励 这个 结果, 但 事实上 人 在 车内 的 时候, 其实 是 特别的 注意 过程 的。 OK 我们 接着 讲 可 解释性 问题。 其实 可 解释性 问题 其实 还有一个 解决 手段, 叫做 什么 呢? 就是 叫做 做 可 解释性 的 模型, 所谓 可 解释性 的 模型, 现在 有 一种 叫做 B E R T bert 模型。 然后 这个 模型 它 大概 的 意思 就是说, 比如说 你 今天 给 这个 GPT, 你 给 这个 单元 模型 各种各样 的 输入, 那 他 最 他在 最后 给你 那个 结果 的 时候, 他 会 告诉你 哪一个 输入 的 那个 信息 是 权重 最高 的。
比如说 今天 是 医生 有一个 医生 去 诊断 对 吧? 他 去 看 一个 看 一个 病人 拍 的 片子, 那 这个 模型 可能 除 此他 会 正常 的 情况, 他 会 告诉他 一个 结果。 除此之外 的话, 他 会 告诉 他说 针对 这个 病症, 这个 人是 一个 女性, 然后 可能 是 50岁, 我 觉得 这 两个 信息 非常重要。 因为 这个 人群 是因为 这个 年龄 的 这个 性别 是 这个 病 的 高发 人群, 对 吧? 他 可能 就会 把 这样的 一些 信息 也 给 到 医生。 这样的话 医生 做 判断 的 时候 的话, 他 会 更加 的 有 底气 一点, 他 也会 认为 更加 的 符合规定 一些, 对 吧?
其实 可 解释性 我们 之前 提到 过, 就可 解释性 在 一些 社会生活 当中 特别 严肃 的 领域。 比如说 医疗 金融, 这个 其实 是 会 最先 使用 所谓 的 可 解释性 模型 的 这么 一个 概念 的 一个 几个 领域。 大概是 这 样子。
也就是说 你 需要 知道 这个 A I 的 结果 是 怎么 推出 来 的 时候, 这个 领域 就 非常 对 科技 视信 的 要求 比较高。 举例来说, 金融机构 用 A I 模型 来 给 用户 做 信用 评分, 这个 很 常见 对 吧? 我们 大家 都有 这个 芝麻信用分。 那那 可能 他在 这个 金融机构 可能 就 根据 这个 分数 直接 给你 决定 贷 不 贷款 给你, 以及 贷 多少钱。 这个 过程 如果 模型 只能 黑箱 告诉你 它是 多少 分 的 时候, 我 觉得 作为 机构 也好, 作为 个人 也好, 恐怕 我们 都 不能 接受 这个 结果 是 吧? 也 而且 也 可能 会 出现 刚才 说 的 那个 问题, 其实 这 个人信用 很 优秀, 但是 就是 被 拒 了, 他 可能 刚好 就是 在 系统 的 某 几个 bug 点 上 出现了 一两个 乱码, 就是 所谓 的 乱码 导致 了 这个 结果。 如果 它是 一个 可 解释 的 模型, 那 我会 告诉你 你为什么 被 拒 了, 你 被 拒 的 原因 是 以下 哪 几点, 这就是 一个 可 解释 的 结果。 这种 结果 基于 这种 可 解释性 模型 出来 的 结论 才有可能 被 运用 在 刚才 说 的 医疗。 我们 举 的 这个 信用 评分 的 这个 例子, 类似 这样的 严肃 的 这种 场合 下, 可 解释性 是 非常重要 的对 对。
是的, 其实 可 解释性 包括 之前 提到 的 就是 偏见, 污染 导致 的 一些 可能 的 一些 安全性。 其实 这些 问题是 我们 最近 一年 左右 的 时间, 我们在 看 A I 的 时候, 我们会 觉得 它 其实 是 一些 以 阻碍 A I 在 企业 里边, 在 真实的 世界 应用 最最 关键 的 一些 问题。 比如说 其实我 前段时间 看 那个 sales force, 一家 软件公司, 企业 软件公司 做 的 一个 统计。 他 就是说 超过 60% 的 这种 I T 的 负责人, 企业 里面 I T 负责人 他们 都想 引入 这种。 A I 的 大元 模型 的 工具。 但是 也有 超过 一半 的 人, 他们 会 知道 说 A I 生成 的 东西 是 不稳定 的、 不安全 的、 不 靠谱 的。 所以 你 就会 发现 这个 东西 很 矛盾, 就 所有人 都 很想 用 它, 但是 所有人 都很 担心 出问题 对 吧?
对, 所以 这里 的话, 其实 我我我 觉得 我要 对 可 解释性 问题, 我 觉得 就是 刚才 包括 刚才 提到 的 例子, 我 其实我 要 做 一个 反思。 首先 我 比如说 刚才 提到 说 有色 人 这种 贷款, 它 就会 更容易 被 拒。 但是 我 觉得 这个 例子 如果 是 只 拿 这 一个 事实, 其实 你 并 不能 说明 这个 A I 歧视 的 有色人种。 因为 可能 A I 它 不是 针对 黑人 或者 是 说 针对 有色人种 歧视。 可能 A I 只是 说 他在 他的 训练 的 语料 里面, 他 看到 我的 这个 正态分布 就 显示 有色人种 的 这个 信用, 就是 赖账 率 可能 会 更高 对 吧? 然后 我 自然 的 把 那个 正态分布 给 它 还原 回来 对 吧?
他 就是说 对于 那个 A I 来说, 它 可能 不是 一个 做 判断 的 原因, 它 可能 只是 一个 结果 而已, 它 只是 把 它 还原 出来 了, 对 吧? 所以 我想说 的 是 说, 针对 我们在 我们 不知道 这个 模型 怎么样 是 具体 的 工作 的 情况下, 这个 可 解释性 的 问题, 其实 他 也 不是 非 黑 即 白 的, 它 可能 只是 一个 概率 管理 的 问题。 为什么 这么 提 呢? 是因为 我 就 问 你 一个 问题, 就是 今天 你 用人 去 审查 人的 贷款 申请, 你 能 说 人是 没有 偏见 的, 对 吧? 其实 人人 反而 是 说 你 很 明确 的 知道 人是 一定 会有 偏见 的, 对不对?
对 人人 的 偏见 甚至 更更 大。 因为 我们 心理学 有 一些 研究 的话, 你 会 知道 人的 心理 的 很多 决策 其实 非常 草率。 之前 不是 有 很 其实 很 有 很多很多 心理学 的 书都 在在 讲 这种 事情。 比如说 有一个 很 经典 的 例子, 就是 假释官 每天 假释。 就是 一个 犯人 是 能不能 被 假释, 其实 跟 这个人 本身 他 做 的 怎么样, 以及 他 是不是 应该 被 假释, 当然 跟 这个 肯定 有关。 但是 还有一个 相关 维度, 就是你 去 进入 这个 法庭, 确定 这个 审判 的 这个 时间 是 正相关。
就是 快 到 中午 吃饭 的 点儿 的 时候, 法官 倾向 于 不给 你 假释, 为什么呢? 原因 很 简单, 就是 因为 在 中午 快 到 中午 的 时候, 法官 已经 很 饿 了。 这个 时候 血糖 浓度 比较 低 的 情况下, 人的 大脑 的 运作 是 被 降频 的。 你 理解 的 一个 C P U 快 没 电 了, 它 就 被 降频 处理 了。 那 这个 时候 人脑 在 降频 的 状态 下 倾向 于 做 保守 决定。 所以 大部分 到了 中午 的 这个 罪犯, 往往 得不到 假释。 但 如果 你是 早上 他 精力充沛 的 头 几个你 稍微 声泪俱下 一点, 可能 法官 就让 你 过了。 其实 这就是 一个 很 典型 的 人的 偏见, 他 甚至 不是 这个人 主观 上 知道 他 有 这个 偏见, 但 他 就 潜移默化 的 存在。
相比之下, 我们 当然 你看 其实 这也是 一种 可 解释性。 就是我 知道 法官 为什么 中午 12点。 那 如果我 看 数据 发现 中午 12点就是 拒签 率 最高 的, 就是 不过 的 概率 最高 的 时间。 那 我们 可以 去 看 它的 状况 是 怎么回事, 然后 来 解释 它。 那 反过来, 其实 我们 也 希望 未来 的 法官, 假设 这个 A I 它 能 给 我们 一个 解释, 为什么 你 不让 他 过? 你 让 他 过 这件 事情 我 认为是 重要 的。 当然 这个 能不能 因为 人类 的 偏见 比 计算机 更高, 我们 就 觉得 计算机 就 你你你 就这样吧, 对 吧? 那 可能 就是 我们 对 计算机 的 要求 也 更高, 就是你 不 你 这个 硅基生物 怎么能 跟 我们 碳基 生物 一般见识, 对不对?
对, 硅基 铌 钛 铌 硅基生物, 不要 跟 我 一般见识。 对, 所以 这里 我们 今天 去 看 那个 心理学 领域, 甚至 是 那种 我们 常见 的 用户研究 的 领域。 其实 人的 这个 偏见 早就 可以 被 量化 了。 比如说 我 做 产品 的, 我们 就会 有一个 那种 一种 研究方法。 就是 给你 一个 产品 的 配置, 然后 知道 说 中间 的 哪个 配置 对 你是 最 吸引 的, 然后 能把 它 量化 出来。 就是 不说 能把 比如说 做 一个 产品, 能把 电池 的 容量 大小 和 屏幕 的 分辨率 这 两件 完全 不 相关 的 事情, 我 都 把 它 转化成 同一个 经济学 上 的 指标。 然后 告诉 你说 哪个 东西 对你 把 这个 东西 卖出去 更 有利。
所以 我的 意思 就是说 人的 偏见 其实 是 可以 被 量化 的的 重点 其实 是 说 只要 机器 的 算法 偏见 比 人 低。 其实 这个 其实 就 怎么讲, 其实 从 结果 上 来说, 你是 可以 让 机器 来 做决定 的对 吧? 但 我们 为什么 人 不愿意 让 机器 做决定? 是因为 人 一般来说 人 只要你 不给 他 解释 清楚 那个 过程, 人 就 不服, 就 不符合 我们 经受 过 的 叫做 什么 程序正义 的这 套 东西, 对 吧? 所以 这个 例子 其实 就 很 像 过去 几年 自动驾驶 的 这个 领域 发生 的 问题, 就是 自动驾驶 的 这个 算法。 我们 现在没有 那个 apple to apple 的 对比, 但是 事实上 如果你 只是 看 一些 事故 的 发生率, 好像 确实 已经 比 人 更好 了, 对 吧? 已经 他的 表现 已经 比 人 更好 了。
而且 自动驾驶 的 这个 前沿 的 算法, 其实 早就 已经 进进 到了 什么, 他们 叫做 A L 4, 就是 彻底 不用 让 你 摸 方向盘 的 那个 等级。 但是 你 会 发现 说 是什么 阻止 了 真正 的 L 4的车上 路 呢? 其实 难 的 不是说 让 自动驾驶 算法 最好, 在这里 难 的 其实 是你 怎么样 让 社会 有一个 正确 的 规则 去 匹配 这样的 算法。 然后 你的 这个 立法 的 责任 是 怎么 来去 接受 的那 这样的 难点 是 在哪里 呢? 比如说 我 举 一个 例子, 今天 北京市 可能 跑 了 几十万 辆 大众 的 汽车, 对 吧? 但 大众 的 汽车 出问题 了, 好像 这就是 一个 常见 的 交通事故, 对 吧? 但 如果 是 特斯拉 的 汽车 出问题 了, 哇塞 那那 明天 汽车 板块 的 头条 肯定 就是 他, 对 吧? 对, 这就是 人的 偏见。
包括 包括 包括 前几年 就是 uber 这家 公司 在 研究 那个 自动驾驶 算法 的 时候, 他们 有 一辆 测试 车 就在 那个 路上 触发 了 交通事故, 然后 驾驶员 就 死 了。 然后 这家 公司 的 自动驾驶 的 研究 一下子 就 被 停滞 了 非常 长 的 时间, 所以 就是 就 托马斯 说 的, 这个 时候 我们 发现 人的 偏见 反而 就要 去 拉 低 了 这个 算法 应用 的 拖延 了 这个 算法 应用 的 一个 节奏, 对 吧? 然后 的话 以至于 说 我们 看到 了 更加 激进 的 法规。 我忘了 是 去年 还是 前年, 就是 德国 它 已经 它的 法规 已经 进展 到 什么 程度。 就是说 如果你 这个 汽车 生产 制造商, 你敢 说 自己是 L 4, 那你 就要 把 所有的 责任 都 负担 起来。 他的 意思 就是说 因为 L 4意思 就是说 你你你 人 就 人 就 几乎 就 不用 碰 摸 方向盘, 绝大部分 的 有 风险 的 情况, 汽车 会 自己 去 规避, 对 吧?
对, 奔驰 已经 公开 宣布, 他们 将在 今年 全面 进入 L 3。 对 所有的 交通事故 担 责, 这个 是 奔驰 已经 明确 说 了的。 对, 我我我 看 只有 这 一条路 了, 就是 厂商 可能 也没有 其他 的 办法 来 推进 这个 事情 了, 就是我 来 担 了。
对, 所以 以后 可能 你 会 发现 说, 以后 真 让 我们 能 在路上 看到 大量 的 不需要 摸 自动 方向盘 的 车。 它 可能 有 两个 前提。 一个 前提 是 这个 地方 的 法规 要 认可 这样 来 开车, 对 吧? 这是 第一个 点, 他 不会 去 拍, 不会 去 扣 你 分。
然后 第二个 点 是 可能 是 汽车 制造商 和 保险公司, 他们 要 联合开发 出 一种 新的 商业 的 保险 的 形式, 对 吧? 然后 能够 cover 掉 汽车 制造商 去 赔付 那些 出 事故 的 车 的 成本。 然后 的话 同时 又能 控制 说 又能 控制 好 这个 车 的 价格, 我不要 卖 太贵。 保险 和 汽车 制造 销售 这 三种 业态, 他 要 去做 一个 利益 的 重新分配 和 模式 的 变化。 那那 成为 了 这 两个 点 之后, 我们 才能 看到 大量 的 不需要 摸 方向盘 的 车 在路上 跑。
是的, 所以 刚才 我们 一直 在 讲 价值观 的 问题, 就是 这个世界 其实 是 非常 多元 的, 没有 一种 价值观 是 普 世 所谓, 所有人 都 同意 的那 其实 就 这个 自动驾驶 这件 事情 来讲, 我们 可能 相对 偏激 进 一些。 我们 觉得 这件 事情 可以 接受 对 吧? 机器 出点 小 问题 其实 比 人 要 概率 低 多了。 我们 大家 都 知道 这一点, 但是 其实 有 很多 的 人 在 这个 社会上 有 非常 多 保守 的 人。 首先 保守 就 不 代表 错误, 对 吧? 第二 保守 的 人 他是 不能 接受 这个 车 有 哪怕 1‱ 的 可能 出问题。 而 没有 一个 司机 坐在 上面 的, 他 可能 他 可以 不用 去 管 这 背后 的 概率、 可能性、 全责, 他 就是 不 接受, 这是 完全符合 社会 现实 的。
这个 社会 就是 由 不同 观点 的, 不同 价值观 的 人 组成 的那 这件 事情 就 变得 他 肯定 会 拖 慢 某 一些 所谓 我们 觉得 应该 更 快速 发展 的 技术 的 进程。 这个 就是 人类 这种 复杂 动物 形成 这个 社会 之后, 他 带来 了 很多 提 效 的 事情。 但 他 同时 也会 有 这种 拖后腿 的 事情 发生, 但是 拖后腿, 你看 我 当我 用了 拖后腿, 其实 它 就 暴露 了 我的 价值 判断。
所以 我 对于 可 解释性 这个 问题 的 判断 说 它 在 短期 之内 它 会 一定程度 上 会影响到 A I 的 大规模 应用。 但是 更 长期 我 觉得 这件 事情 一定 是 说 一旦 你的 算法 的 这个 偏见, 它 降低 到 一个 非常 可控 的 水平, 对 吧? 然后 再加上 说 你 这个 A I 带来 的 生活 的 便利 是 足够 清晰 的, 我 觉得 未来 的 下一步 一定 是 大部分 人 认为 为了 便利 而 让步, 他 会 接受 一些 看不见 的 一些 偏见, 或者 不是 太 明显 的 偏见, 大家 接受 就 接受 了, 对 吧? 所以 我 觉得 这个 是我 对 长期 的 一个 预测。
好了, 我们 接下来 再来 给 大家 update 一个 行业 的 最新 动态。 行业 的 最新 动态 就是 大 语言 模型, 包括 A I 刚才 也 讲 了 那么 多 问题, 对 吧? 那 有没有 人 来解决 它? 就是 刚才 讲 的 都是 一些 很 简单 的 方法, 还 会有 一些 更 深奥 的 方法。
这里 为 大家 介绍 一个人, 叫做 卷积 网络 之 父 杨丽坤 老爷子, 杨丽坤 中文名 那是 是 法国 科学家, 生活在 美国, 是 这个 meta 公司 的 首席 人工智能 科学家, 然后 他 曾经 我们 今天 使用 的 这个 O C R, 就是 文字 识别。 包括 你家 的 小区 为什么 能够 识别 车牌号, 就 图像 的 模式识别, 这些 其实 都是 跟 杨立 坤 老爷子 的 这个 工作 是 非常 相关 的。 他 最近 在 A I 领域 很 活跃, 有 甚至 是 到了 开始 有 一些 这种 社会 新闻 的 层面, 是因为 他在 一些 辩论 当中, 他 直接 说 GPT 的 智能 连 狗 都 不如, 他 就是说 GPT 都 没有 狗 聪明。 你 作为 一个 科学家, 你 去 讲 这个 东西, 他 肯定 是 有 其他 的 内容 要 讲 的。 他 其实 大概 推广 了 一个 他的 一个 他 所谓 认为 这个 A I 模型 一个 正确 的 一个 结构。 之前 我们 说 transformer 其实 也是 一种 A I 模型 的 结构, 那 他的 他 所谓 的 这个 模型 的 结构 叫做 世界 模型。
这里 我 补充 一下, 杨丽坤 是 2018年 的 图灵奖 得主。 我们 知道 图灵奖 都是 讲 给 非常 厉害 的 数学家。
的 和 计算机 科学家。
对对对, 数学家 和 计算机 科学家 他 这 段时间 这么 火, 就像 刚才 凝神 讲 的, 就是 因为 他是 长期 的 在 过去 半年 里面 变成 公众人物。 就是 因为他 是一个 坚定 的 大 语言 模型 的 反对者。 他 觉得 大 语言 模型 他 刚才 说 了 GPT 这个 能力 还 不如 狗, 智力 还 不如 狗。 他 还说 了 一句话, 他说 五年 内大 模型 就会 走 到头, 就是 LLM 就是 大 语言 模型 这件 事情 就会 走 到头。 这件 事情 在 我们 热火朝天 聊 ChatGPT 的 时候, 大家 就 觉得 就是 一个 老头 在 一个。
一个 保守派 的 老头子 对 一个。
保守派 的 老头 在在 说胡话。 但是 结合 我们 刚才 的 体感, 结合 我们 现在 看到 的 这个 大元 模型 的 冲高 回落 的 这个 趋势。 我们 现在 回过头来 看一看 杨丽坤, 他在 这些 方面 的 观点, 还是 有 非常 深厚 的 学术 背景 的那 那 其实我 觉得 他 可能 比 我们 更 早 的 看到 了 大 语言 模型 的 局限性 和 有可能 的 未来。 我 觉得 所以 我们我们 再 回过头来 看看 杨丽坤 老爷子, 他在 推广 的 这个世界 模型 是一个 什么样 的 东西。
对 杨丽坤 老爷子, 首先 他是 批评 说 单元 模型, 其实 他 其实 就是 在 学习 语言 的 统计 规律, 然后 生成 连贯 的 文本。 所以 这样的 模型 其实 是 没有 对 世界 深入 的 理解 和 推理 的 能力 的。
就是 他是 假装 假装会 了。
对, 他是 假装 他 假装会 了。 所以 杨丽坤 老爷子 的 想法 是 说 他 希望 未来 的 我们 用 的 这些 语言 模型, 或者说 我们 用 的 模型, 应该 是 能够 像 人类 和 动物 一样 去 理解 世界, 预测 未来, 制定 计划, 甚至 有 自主 学习 能力 的。 他 引用 了 心理学家 丹尼尔 卡尼曼 的 那个 畅销书 思考快与慢。 因为 那本书 里面 其实 把 人脑 是 体验 为 分成 两个 系统。 系统 一 就是 短期 的 快速 的 反应, 不 涉及 复杂 的 推理。 系统 二 它 就是 要 去 推理世界 的 这个 运作 规律, 然后 去 看我 执行 这个 动作 有 多少 成本。
所以 杨立 坤 老爷子, 其实 他的 一个 架构, 他他 有点 类似 于 说 我们 大脑 其实 是 分 不同 的 区域 然后 有 不同 的 功能。 但 他的 大概 的 思想 其实 是 说, 我 所谓 的 这个世界 模型 应该 是 分成 不同 的 这个 模块。 比如说 一个 叫做 perception 的 模块, 它是 感知 和和 估计 这个世界 当前 的 这个 情况。 有点 类似 于 我们 今天 人 吹风, 你知道 是 天气 要 变了 对 吧? 感受到 冷 可能 是 你知道 是 有 水流 在 手上, 类似 这样 perception 模块。
然后 第二个 模块 是 act 模块。 Action 模块 来说 的话, 它 更多 的 就是 预测 你的 动作 会 产生 什么样 的 后果。 比如说 人 你 把手 接近 火, 你 其实 会 预测 你的 后果 就是 自己 会 烫伤, 对 吧?
然后 的话 炭 商 这件 事情, 其实 在这个世界 模块 里面, 它 就是 一个 cost 一个 模块。 Cost 就是 成本 对 吧? 就是你 感受到 痛苦 它 也是 一种 成本, 你 感受到 这个 快乐 它 也是 一种 成本, 对 吧? 然后 的话 它 还会 刚才 提到 说有 这个 系统 一和 系统 二, 所以 它 还会 分别 的 创建 这个 叫做 什么 短时间 的 shorter memory, 短时间 的 记忆 模块。 所以 大概 来说 它是 把 这个 语言 模型 分成 了 这样的 几个 模块。
然后 他 认为 就是说 一个 语言 模型 的 运作, 它 不应该 只是 不断 的 在 重复 我 学 过 的 下 一句话 应该 怎么说 这种 事情。 他 认为 一个 模型 它 应该 是 他 应该 是我 感受到 外部 的 世界 是 什么样, 然后 我知道 我 下一步 的 动作 会给 我 带来 快乐 还是 痛苦。 然后 最后 再 来看 我 预测 我 这个 动作 的 结果 是什么。 所以 他 大概是 提 了 这样的 一个 架构, 其实 中间 有 很多 数学 性 的 推理, 其实 我们 确实 有点 超出 我们的 这个 知识 范畴。 但是 我 觉得 这个 部分 还 算是 比较 浅显易懂 的 一个 内容。
对我 感觉 现在 大家 可以 简单 理解 就是 世界 模型 和 大 语言 模型 就是 两种 不同 的 教育 小孩 的 方式。 那大 语言 模型 听起来 就 简单粗暴 一点, 我 大力出奇迹 对 吧? 你 给我 题海战术, 你 把 这套 五年 黄冈 三年 模拟 给我 刷 完, 刷 完 再 刷 100遍, 然后 把 所有的 题 全部 刷 完, 先 学 学学 完 之后 我 再 用 这种 微调 的 方式 告诉你 要 考 什么。 然后 你 再 针对 这个 考点 进行 five, 通过 这种 方式, 人 然后 人工 再 给你 打分, 让 你 反复 的 再 学 个 半年, 然后 产出 的 就是 大 语言 模。 这个世界 模型 看起来 就是 一个 更 复杂 的, 有 更多 分区, 然后 有 更多 这个 模式 的 这样的 一个 学习 方法。 但是 它 也是 在 模拟 很多 的 小朋友 学习 跟 认知 这个世界 的 方式。 我们 就 像教 小孩 一样的 在教 这些 人工智能 的 模型 认知 这个世界, 基本上 大家 可以 这么 理解, 我希望 有一天 A G I 被 我们 交出来 以后, 记得 我们 当年 这个 养育之恩, 不要 把 我们 赶尽杀绝。
OK。 那 我们 接着 说, 所以 这个世界 模型 这样 一个 比较 抽象 的 一个 概念, 虽然 他 现在 还没有 实际 的 产品 抽象 出来, 但是 他们 现在 是 做出 了 一个 怎么讲, 露出 一个 图像识别 的 一个 算法 的 模型, 它 叫做 I G E P A 啊啊啊 I G E P A。 然后 的话 这个 算法 模型 的话, 它 主要 的 一个 特点, 他 就是说 他 认识 的 是 图像 的 这个 特点, 他 认识 的 是 图像 的 特征 然后 的话 而 不是说 他 去 识别 每一个 像素 应该 是 怎么样 的 一个 生成 的 一个 规律。 它 有点 类似 于 说 它 在 生成 一个 图像, 比如说 你 比如说 生成 一本书 的 时候, 生成 一本书 的 这个 封面 的 时候, 他 更多 的 想象 的 是 说, 那个 封面 上 可能 你 这本 书写 的 是 关于 什么, 可能 这 本书 讲 的 是 关于 任天堂, 那 可能 我就是 要 有一个 任天堂 经典 的 几个 特征, 就 类似 于 马里奥 的 帽子, 对 吧? 刚 的 这个 外形, 就 类似 于 这样 一些 东西。 那 过往 的 语言 模型, 它 更多 的 他 其实 是 更多 的 是 更加 抽象 的 来 去来 去 生成 这个 东西。 他 并 不他 可能 并不 理解 这个 马里奥 的 帽子, 他 具体 跟 这个 任天堂 有什么 关系。 从 这个 简单 的 理解 就是 他 现在 生成 他 现在 做 的 G E P A 的这 套 论 这套 内部 模型 其实 是 有 这样的 一个 特点。
听起来 感觉 如果 要 诞生 A G I 的话, 这个世界 模型 的 可能性 还是 要 比 大于 模型 要 高 一些。
对, 因为 世界 模型 怎么讲? 世界 模型 如果 是 我们 来 模拟 大脑 的话, 其实 世界 模型 也 挺 像 我们 大脑 的 一个 结构 的。 就是 不同 的 左半球、 右半球 不同 的 区域, 它 有 不同 的 作用, 所以 其实 世界 模型 挺 像是 一个 模拟 大脑 的 一个 结构。 所以 短期 来看, 我们 可能 看到 就是说 可 解释性 问题, 污染 问题, 其实 都 会有 一些 偏见 问题, 都 会有 一些 小的 解决 的 方案。 长期 来看 来说 的话, 可能 我们 最终 还是 要 走到 那条 路上。 就是说 我们 不能 只 跟 一个 鹦鹉学舌 的 一个 大圆 模型 来 展开 协作。 我们 可能 还是 需要 像 杨丽坤 描述 的 这种, 就是 能够 真实的 认知 世界 和 自我 学习 的 这样的 一个 模型 来去 写作。
还是 要 提醒 一下 大家, 目前 还是 论文 阶段, 还没有 实际 的 demo 产品 或者 是 更 具体 的 东西 出来。
对, 我们 只能 期待 一下。
对 O K 但 其实 我们 刚才 聊 了 很多, 我 觉得 也 算是 泼 了 一盆 冷水。 在 这个 大 语言 模型 这件 事情 上, 我们 泼 自己 过去 有点 头脑发热, 觉得 这个 事情 包括 很多 朋友 他 都 会说, 我 觉得 这个 事情 我们 要 all in A I 我 认识 了 很多人 很 激动, 包括 我 认识 一个 广告公司 的 老板, 他 也很 严肃 的 跟 我说, 说 他 学习 了 一段时间 A I 之后, 他 觉得 要 接下来 他 要 做 一家 A I 的 广告公司。 要在 这个 大元 模型 这件 事情 上, 他 要把 它 在 当然 在 应用 层面, 针对 营销 的 一系列 的 投入。 那 大家 头脑发热 了 半年 之后, 我们 今天 自己 浇 了 一盆 冷水 在 头上。 我们 感觉 这个 大 语言 模型 的 局限性, 然后 目前 面临 的 问题 以及 它的 未来 可能 都 不会 像 我们 之前 想 的 那么 乐观。 但是 最后 我们 还是 要 再 重新 打 一点 鸡血 回来。
因为 我们 知道 其实 大家 如果 用过 的话, 大家 知道 这个 ChatGPT, 其实 它的 准确性 是 有问题 的。 因为 就像 我们 刚才 说 的, 它是 一个 基于 上下文 的 概率 回答 的 这么 一个 产品。 它的 原理 就 决定 了 它是 一个 不 那么 靠谱 的 一个 A I 不 靠谱 的 A I 是不是 就 没有 靠谱 的 应用 了? 当然 也 不是? 它 其实 在 有一个 领域 是 做得 非常完美 的那 就是 ChatGPT 原本 的 初心? 它是 一个 聊天工具, 也就是说 它是 一个 聊天 程序。 所以 它 完成 聊天 这件 事情, 其实我 觉得 大 语言 模型 是 已经 做到 了 非常完美 了。
因为 我们 之前 用来 对比 的 像 小爱 同学 或者 是 siri 这种 语音助理, 跟 他 就 真的 完全 不是 一个 层面 的 这个 水平 了。 所以 在 聊天 这个 领域, 其实 就 延伸 出 很多 的 应用 场景。 比如说 虚拟人 陪伴。 在 这个 领域 其实 有 一些 基于 大元 模型 的 产品 已经 做到 了 非常 棒。 我 觉得 可以 请 宁 X 来 给 我们 介绍 一下, 让 我们 最后 再 找回 一点 信心。
对, 最近 美国 一家 还 蛮 有 影响力 的 V C 叫 A16Z。 他们 最近 在 写文章, 就是 在 说 虚拟 陪伴 这件 事情 其实 随着 大元 模型 来说 是 做 的 非常 好。 然后 大元 模型 它 能够 改善 非常 多 的 问题。 比如说 你 出现 一个 虚拟 的 一个 伴侣, 它 有 非常 多样化 的 性格 可以 去 供 你 选择。 她 有 跟 你 在一起 的 记忆, 然后 它 能 生成 非常 连贯 的 不 生硬 的 语音 以及 自然 的 动作。 以及 今天 能够 依靠 各种 的 这种 A I 平台, 以及 能够 实现 说 他们 能够 甚至 是 一些 虚拟 的 伴侣, 能够 给你 提供 一些 服务。
所以说 虚拟 陪伴 这件 事情, 其实 在 今天 可能 在 国内 社会, 它 还是 一个 相对 小众 的 需求。 但是 我们 知道, 像 国内 可能 一些 比如说 熟悉 二次元 文化 的 人, 或者 是 一些 00后一些 年轻人。 其实 对岸 的 对于 这样的 一些 虚拟 陪伴, 他们的 需求 是 很刚 需 的, 而且 是 非常 买单 这样的 一些 服务 的那 我们 知道 一个 著名 的 例子 叫做 Karen A I, 就是 一个 女网 红 叫做 Carry, 他 现在 在 做 的 一件 事情 就是说 他 把 自己的 那个 声音 和 图像 都 请 那个 大 语言 模型 去 训练。 过了 之后, 如果你 想要 跟 Carry 对话, 你 就可以 去 按 时间 买 他的 服务。 然后 Carry 就会 回答 你, 然后 他的 那个 应用 现在已经 有 超过 2万人 在 用, 而且 第一个 星期 就 赚 了 72000 美元。 这个 还是 一个 蛮 不错 的 一个 收入 的 一个 情况。 对还 蛮蛮 不错 的 一个 生意。 这个 是 可能 女网 红 还是 比较 怎么 比较 小众 的 例子。
Snap cha T S N A P C H A T 有点 类似 于 中国 的 Q Q。 它 类似的 点 是因为 S N A P C A T 在 美国 也 主要是 年轻 的 小朋友 在 用。 S N A P C H A T 推出 了 一个 叫做 my A I 的, 就是我 的 A I 这样的 一个 聊天机器人。 他 的 一个 成果 是 他们 在 两个月 之内, 他们 大概 1.5亿 用户 在 这 上面 来回 发 了 100亿条 信息。 大概 每个 用户 你 应该 是 发 了 二十多条, 对 吧? 你可以 想象 就是说 今天 你 其实 是 不会 跟 一个 智能 客服, 你 会 来回 说 二十多 句 话 对 吧? 但是 的话 卖 A I 里面 很多人, 其实 很多 小朋友 其实 是 跟 他 去 聊 娱乐 的 话题, 跟 他 去 聊 轻松 的 话题。 所以 这个 东西 其实 是一个 甚至 是 有的 小朋友 他 让 那个 S N A P H A T 的 my A I 来 辅导 他的 数学。
你们 可以 想象 吗? 就是 你家 的 小朋友 回来 打开 Q Q, 然后 Q Q 里面 有一个 A I 那个 A I 在教 小朋友 怎么 学 数学 作业, 对 吧? 所以 这件 事情 其实 是 非常 受 年轻人 的 欢迎 的。 以及 就是说 很多 美国 小朋友 现在已经 说 这个 A I 就 像是 我最好的朋友 一样。 对。
是的。 但是 我们 其实 大家 如果 听 完了 我们 上面 的 内容, 再 回头 来看 现在 流行 的 这个 虚拟 陪伴 的 这些 产品。 我 觉得 大家 仍然 会 感觉到 有 一丝丝 的 问题 跟 隐忧 在 背后。 比如说 这个 跟你聊 天 的 人的 价值观 是 怎么样 的? 他在 跟 你的 孩子 聊天 的 时候 会 传递 什么样 的 信息 跟 价值, 它的 alignment 也就是 它的 这个 内容 审查, 我 觉得 要求 可能 会 更高。 因为 我们 也 看到, 其实 像 麦 A I 的 很多 案例 也是 在 尝试 越狱。 就是 跟 他 聊 一些 不应该 聊 的 东西, 让 他说 一些 不该 说 的话。
永远都是 大家 都会 在 这些 所谓 的 互联网 的 冰山 之下 的 内容 去 试探, 包括 一些 尺度 比较 大 的 色情 的 一些 内容 等等。 它 一定 是 未来 这 一类 产品 要 面对 的 非常 大 的 一个 挑战。 但是 我们 so far 我们 认为 起码 在 这个 产品 的 特性 上, 我们 认为 大 语言 模型 的 这种 聊天 能力 很强 的 这种 尤其是 取悦 人类 用户 的 能力 很强 的 这个 特性, 其实 用来 做 陪伴 是 非常 顺理成章 的。 而且 现在 看到 了也 看到 了 一些 明确 的 产品, 我们 认为是 有 很 好的 商业 前景。
的对 对我 觉得 我们 需要 关注 它 有 很 两个 非常重要 的 原因。 一个 原因 是因为 现在 年轻人 在 用 的 东西, 其实 很大程度 上 它 就是 会 未来 是 会 社会 主流 的 一些 东西, 比如说 我们 原来 用 的 Q Q 对 吧? 就是说 最早 的 这种 抖 音, 其实 这 早期 都是 一堆 年轻 的 小朋友 在 玩。 然后 随着 这帮 年轻 的 小朋友 长大, 他 就会 是一个 非常 成功 的 一个 东西。 然后 第二个 原因 是因为 就是 随着 我们 生活水平 的 进步, 对 吧? 生活水平 的 进步, 其实 这种 满足 人的 精神 需求 的 东西 是 越来越 有 商业价值 的, 这是为什么 我们 需要 关注 它。 对。
好, 以上 就是 我们 这 一期 想 跟 大家 探讨 的 内容。 不知道 大家 听 完 之后, 对 A I 的 信心 是 更 足 了, 还是 也 打了 一个 问号 呢? 以及 我们 也 我 也很 好奇, 大家 在 实际 用 A I 的 这些 产品 的 体验, 在 这 段时间 包括 大家 的 预期 使用 的 感受 有没有 发生 一些 变化。 大家 是 还在继续 用 这些 产品 吗? 我 觉得 大家 可以在 评论 区 聊 一 聊, 大家 现在 对 A I 的 看法 有没有 什么 新的 变化。
或者 是 说 可以在 评论 区 写 一下 你 最近 觉得 A I 最好 用 的 一个 应用, 或者 是 觉得 A I 最 不满足 你 预期 的 一个 应用。 对。
都 可以 OK。 希望 大家 在 评论 区 踊跃 讨论, 我们 也会 选出 发言 最 精彩 的 三位 听 友 送出 由 中信 出版社 刚刚 发布 的 一本 新书。 这 本书 叫 人工智能 时代 与 人类未来。 他是 三位 作者 写 的, 包括 基辛格, 然后 eric smidt 就是 谷歌 的 创始人, 还有 一位 是 也是 非常 著名 的 M.
I T 的 计算 每一个 计算机 学院 的 院长, 然后 基辛格 其实 是 美国 前 国务卿。
对 那 这 本书 我 大概 翻 了 一下, 它 其实 不是 在 讲 当下 的 A I 的 进展, 它 更多 的 是在 回顾 A I 的 历史, 然后 包括 人类 的 整个 智能 的 发展 的 历史, 以及 畅想 了 更 遥远的 一些 人类 的 未来。 可能 思考 了 一些 更大 尺度 的 一些 话题, 我 觉得 大家 感兴趣 的 可以 读 一下, 它的 可读性 还是 蛮强 的。 好的, 我们 本期 播客 就 到 这里。
谢谢 大家。
感谢您 收听 脑 放 电波。 您 可以在 小宇宙、 苹果 播客 或者 其他 泛 用 型 播客 客户端 搜索 脑 放 电波, 找到 并 关注 我们。 如果 您 对 本期 节目 有 任何 疑问, 欢迎您 给 我们 留言。 如果 您 觉得 这 期 节目 对 您 有所 帮助, 欢迎您 关注点 赞、 收藏、 转发, 这 对 我们 非常重要。 好了, 本期 节目 就 到 这里, 让 我们 下期 再见再见。