We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode E108|从20分迅速追到50分,国产大模型难在哪儿|AIGC特辑

E108|从20分迅速追到50分,国产大模型难在哪儿|AIGC特辑

2023/5/9
logo of podcast 硅谷101

硅谷101

AI Deep Dive AI Chapters Transcript
People
戴雨森
Topics
戴雨森:国产大模型发展迅速,部分模型得分已从20分提升至50多分,展现出巨大的进步潜力。然而,与GPT-4相比仍存在差距,尤其在逻辑推理、知识准确性等方面。未来发展面临诸多挑战,包括芯片供应、数据处理、算法优化、模型安全等。 泓君:中国大模型发展面临着技术瓶颈和国际竞争的双重压力,但同时也存在巨大的市场机遇。 戴雨森:中国大模型的快速发展得益于技术积累和人才储备,但同时也面临着技术瓶颈和国际竞争的双重压力。在模型评估方面,真格基金开发的Z-Bench系统为大模型的客观评估提供了有效的工具。 泓君:中国大模型发展需要解决数据、算法、架构等多方面问题,才能实现真正的赶超。

Deep Dive

Chapters
本期节目讨论了国产大模型与GPT-4的差距,以及如何设计一套大模型评分系统。嘉宾分享了他们团队设计的Z-Bench评分系统,并对GPT-4、国产大模型的得分进行了比较,指出国产大模型在快速追赶,但仍存在差距。
  • 团队开发了一套大模型评分系统Z-Bench,包含300个问题。
  • GPT-4得分在80分左右,国产模型得分从20分迅速提升到50分。
  • 差距缩小,但从50分到80分可能更难。
  • 测试问题涵盖多个领域,并根据ChatGPT的涌现能力设计。

Shownotes Transcript

欢迎 收听 硅谷 101, 这是 一档 分享 当下 最 新鲜 的 技术 知识 与 思想 的 科技 博客。 我是 红军。 相信 很多 朋友 也 看到 了 我们的 业务 在 越做越 多。 我们 有 硅谷 101的播客, 也有 硅谷 101的视频 在 B 站 和 youtube 上 播放。 还有 一档 播客 叫做 web 3101。

随着 我们 内容 的 变 多, 也 非常 需要 更多 的 小伙伴 加入。 所以 我们的 节目 正在 开启 创建 以来 第一轮 的 大型 的 全职 招聘。 我们 正在 招聘 播客 的 节目 监 是 我们 希望 他 懂 内容, 懂 科技 行业 和 web 3行业。 还在 招聘 视频 的 后期 商务 和 运营, 具体 信息 大家 可以 看 节目 的 show note。 感兴趣 的 小伙伴 也可以 把 你们的 简历 还有 代表作品 发送到 我们的 邮箱, podcast at SV101点 net。 我 再说一遍, 邮箱 的 地址是 P O D C A S T at SV101点NET。

非常 期待 对 做 内容 有 热情 的 小伙伴 来 加入 我们, 跟 我们一起 创作 这 期 节目, 继续 我们的 AIGC 特辑。 今天 我们 邀请 到 的 嘉宾 是 真格 基金 的 管理 合伙人 戴雨森。 他 会 跟 我们一起 聊 一下 他 自己的 大 模型 的 使用 体验, 以及 他们是 如何 设计 了 一套 给 大 模型 的 打分 系统。 还有 他 眼中 什么样 的 团队 可以 打造出 中国 的 OpenAI。 Hello, 宇森, 你好。

Hello 你好。

今天 邀请 你 是因为 我在 补 我 过去 缺失 的 一些 功课。 我们 知道 过去 几个 月, 其实 大 模型 的 发展 特别的 快。 三月份 的 时候 OpenAI 它 在 去 密集 的 发布, 比如说 像 G P T four, 然后 微软 也 在 发布 它的 new bing, 包括 谷歌 也有 很多 的 动作。 四月份 的 时候, 我看 现在 大概是 一个 中国 密集 的 大 模型 的 发布 时期。 我 觉得 这个 发展速度 其实 已经 远远 的 超过 了 我 以前 作为 一个 记者 去 跟踪 任何 一个 行业 它的 发展速度 了, 还是 有 很多 我 跟不上 的 地方。 我知道你 对 这个 方向, 包括 其中 的 论文 创业 公司 你 都 聊过, 所以 今天 也 算是 给我 还有 给 我们的 听众 们 补 补课。

没有 互相 交流。 我们 也有 很多 现在 还没有 搞清楚 的 问题, 但 我 觉得 确实 每天 的 发展 都 非常 的 快。 所以 我们 讲 了 很多 东西, 现在 看 可能 也是 不完整 的, 很多 我 觉得 很快 就会 被 打脸。

其实我 对你 特别 感兴趣 是 两个 点。 第一个 点 是 我看 你是 一个 大 模型 的 深度 使用者。 不管 是 语言 模型 还是 me journey 就是 这种 图片 模型, 就是你 要 发 很多 自己的 使用 体验。 第二点 就是 作为 一个 投资人 你怎么看? 所以 我们 今天 也 大概 会 分成 这 两个 部分 去 聊。 最 开始 你是 什么时候开始 注意 到大 模型, 然后 去 用 它的。

我是一个 使用者, 这 首先 来自于 我自己 是一个 对于 新 东西 狂热 爱好者, 我 非常 喜欢 尝试 新 东西。 所以 我 比较 相信 在 一个 大 的 革命 发生 的 时候, 最好的 方式 是要 去 使用, 是要 去 体验, 而 不是 只是 去 研究。 因为 这 里面 百闻不如一见, 百 见 不如 一 用。 我自己 当然 在 GPT3 出来 的 时候, 其实 也 在 一些 demo 上 尝试 过, 包括 当时 也有 一些 人 做 这样的 应用。 但 坦率 来讲, 那个 时候 GPT3 表现出来 的 对话 能力, 尤其是 中文 对话 能力 其实 没有 那么 强。 在 ChatGPT 出来 当天 晚上 是 我们的 一位 同事, 他 第一时间 用 上了 ChatGPT, 然后 他 非常 的 兴奋, 他 一直 用到 凌晨 五 六点钟, 他 跟 我们 说 一定要 赶紧 去 用。 我 当时 没有 open I 账号, 所以 我 还 弄 国外 手机号 什么的, 花了 一点 时间, 我在 十几二十个 小时 之后 用 上了。 我自己 也是 非常 震撼。

因为 之前 的 这些 chatbot 型 的 应用, 如果 大家 记得 的话, 其实 在 1516年 那 块儿 是 有 一波 创业 的 热潮。 有 很多人 做 的 chabot。 日常 来说 小 冰, 各种 语音助手 这些 也都 聊过。 其实 在 之前 都 很少 有 语音助手 或者说 对话机器人 能够 把 多轮 对话 给 聊 下来 的。 但是 当你 第一次 用到 ChatGPT 的 时候, 你 就 知道 它的 能力 远远超过 了 以前 我们 见到 的 所有的 A I 的 应用。 我 觉得 这个 是 第一 反应。 我 就 发现 其实 有 很多很多 的 原来 我们 完全 没有 想到 一个 聊天机器人 能够 做 的 事情, 当时 也 在 推特 上 看 全世界 的 网友 在 分享 各种各样 的 好的 使用 案例。

我自己 觉得 最 震撼 的 一点 是我 当时 用 自然语言, 也就是 用 大白话 描述 了 一下 20问这个 游戏 的 规则。 20问其实 就是我 心里 想 一个 东西 可以 问 20个问题。 每个 问题, 比如说 你 想 的 是不是 一个 有 生命 的, 然后 我可以 回答 是 或者 否 或者 不确定, 然后 你 尝试 来 猜 到 我 心中 想 的 是什么。 我 大概 就 用 一百多个 字 把 这个 规则 跟 他 描述 了 一遍, 他 就可以 跟我来 玩 20问这个 游戏。 第一次 我想 的 是 猫, 他用 了 大概 五六步 就 猜 到了 是 猫。 第二次 我想 了 biden, 他用 了 大概 14部猜 到 是 biden。 然后 我 彻底 被 震惊 了。

你 觉得 他 跟 真人 的 那个 水平 怎么样? 我 觉得 第一步 就是说 他 能够 理解 我 给 他的 这个 规则。 第二步 是 他 能够 有效 的 使用 二分法 去 进行 查找。 因为 在 这个 里面 你 怎么 高效 的 去 找, 你 其实 需要 做 一些 二分法。 比如 他 是不是 有 生命 的, 他 是不是 人? 他 是不是 一个 正在 活着 的 人一个 会 玩 的 人和 不太会 玩 的 人, 他的 查找 方式 是 挺 不一样的我 觉得 他 其实 做 的 非常 好, 所以 后面 我 再 进行 各种各样 的 新的 尝试。

比如说 我 让 他 尝试 跟 我 下棋, 尝试 写 代码, 我 尝试 让 他 当我 的 英语老师, 他 可以 从 初中 到 研究生 水平 给我 出 不同 的 英语 的 题, 改 我 写 的 英语作文, 并且 给出 很多 很 好的 建议。 我 就 发现 他 不断 的 发现 他 能够 做到 的 不一样的 事情。 另外 一方面, 我自己 因为 曾经是 一个 设计师, 所以 我也是 meter journey 的 重度 用户。 我 是从 当时 22年 8月份 meter 这里 发布 的 时候 就 开始 用到 现在 也 画 了 几千 张 图。 然后 我 就 看到 V 3、 V 4、 V 5越来越好。 同时 我也 在 自己 机器 上 部署 stable revision auto GPT baby H I 这些 新 出来 的 实验。

你 自己 用 mid journey, 你 能 感受到 它的 进化 在哪里 吗? 可不可以 跟 大家 讲 一下 这种 我们 刚刚 在 讲 大 语言 模型, 基于 扩散 模型 你 觉得 他 表现 的 怎么样?

New journey 我 是从 V 3开始 用 的, V 3开始 用 的 时候, 我 觉得 它 能够 产生 一些 有意思 的 概念, 但是 到 实际 使用 还有 很大 的 差距。 第一步 来讲 就是说 他 能不能 做出 比较 逼真 的 画面, 我 觉得 这个 是 比较 难 的。 但 V 4是直接 上了 个 大 的 台阶, V 4对于 人物 照片 这些 的 处理, 包括 一些 很 风格化 的 处理, 我 觉得 是 很 明显 到了 一个 能够 打败 大多数 的 普通 艺术 从业人员 和 跟 照片 比较 接近 的 水平。 V 5在很多 细节 的 真实度, 场景 的 真实度 上 加强 了 很多, 有的 时候 也 不是 那么 的 风格化 了。 因为 现实 世界 不是 那么 风格迥异 的, 它 往往 是 看着 有点 平淡 但 真实的。

然后 我 觉得 它 一个 非常重要 的 功能 就是 describe。 Describe 这个 功能 它 就是 让 你 传 一张 图片, 它 生成 几个 可能 的 prompt。 因为你 直接 对 着 一个 输入框 去 想你 要 画 什么, 其实 是 一件 挺 难 的 事情。 但是 人的 创作 往往 都是 说 先 看到 有 个 东西 被 激发 灵感, 然后 去 在 这 基础 上去 调整。 所以 我 现在 可以 把 我 看到 的 一个, 我 觉得 这个 构图 不错, 但是 这个 里面 的 对象 我要 改 一下, 或者说 这个 里面 景色 不错, 但是 我想 从 白天 改 到 晚上。 这样 就是 它 能够 帮 我 去 产生 一个 很 好用 的 prompt, 然后 我在 技术 上去 修改, 我 觉得 这是 完全 打开 了 一个 新的 使用 方式。 因为 原来 你说 我要 主动 的 想到 一个 场景, 并且 用 语言 描述, 这个 难度 不小。 但是 现在 我 先 describe 再去 修改, 再去 进行 生成 图片, 那 这个 时候 其实 它的 难度 和 效果 会好 很多。

Described 跟 prompt 词 的 区别 是什么?

Describe 就是你 传 一张 图 生成 prompt.

是 图生 纹 图生 纹。

但是 生的 纹 是 prom, 然后 你可以 直接 用 这个 problem 再 生成 图。

你 之前 说 你 一直 想 画 一个 大教堂, 但是 还没有 画 出 理想 的卡 在哪。

我 确实 还 没有用 describe 去 试一试, 也许 我 用 科隆大教堂 的 去 试一下 就可以 了。 Mini journey 这种 它的 典型 是你 如果 至少 之前, 你 如果 想 很 仔细 地 画 一个 你想要的 东西, 它是 不 太行 的。 这些 方面 是 fusion 加 会有 很多 的 优势。

Minter journey 它 就是你 适合 去 进行 头脑风暴, 画 一个 很 有 艺术 感 的 图。 但是 在 加入 了 describe 这些 元素 之后, 它的 可控性 会 变强 一些。 因为我 相信 需要 的 时候 发散, 需要 的 时候 可控, 这个 是 它的 使用 场景 会 更加 多样化。 因为 大量 的 商业 场景 是 还是 需要 可控 的。 如果 它 完全 不 可控 的话, 那 肯定 是 就是 得靠 运气 去 蒙 去 尝试。 这 肯定 不是 一个 最 有效率 的 方式, 但是 一个 可能 最 有意思 的 方式。

我 听说 成都 的 一家 游戏 公司, 他们 在 用了 me journey 以后, 就 把 他们 大概是 80分以下 的 美术 都 给 砍掉 了。

确实 在游戏 行业 的 很多 做 原画 的 领域 是 有 这样的 情况 的。 我 觉得 这个 也 不用 去 把 它 想 的 太, 就是 每次 工具 肯定 要会 用, 新 工具 的 人才 会有 更好 的 生产力。 如果你 这样 做 的话, 可能 study fusion 会 更好, 因为 它 可以 扩展性 更强, 它 有点像 安卓 与 iphone 的 这个 区别。

我 觉得 业界 大家 对 这个 反应 都 不一样。 比如说 如果 是 二次元 游戏 的话, 业界 的 反馈 就是 其实 网友 他 会 去 识别。 当 他 觉得 你 这个 是 二次元 游戏 的 时候, 他 发现 你是 用 那个 A I 创作 的, 用户 会 抵制 这件 事情。 所以 反而 二次元 游戏 是 不太 容易 去 颠覆 的。

因为你 要在 网上 养 老婆, 你的 老婆 最好 是人 化 了, 对 吧? 我 觉得 以后 可能 会 这样, 就是说 手工 做 的 东西 更 贵, 但是 机器 做 的 东西 很好。 这个 精神文明 的 东西 不好 说。 我 觉得 对于 生成式 A I 不管 是 文字 还是 图片 的 整体 来讲, 如果你 做 的 东西 只是 一个 缝合 怪, 那 你的 会 变得 很快 没有 价值。 因为 现在 我们 有 大量 人的 工作, 就是 把 一个 东西 缝合 起来, 复制粘贴, 改一改, 这个 机器 会 比 你 做 的 好的 多。 所以 我 认为 它的 好的 一面 就是 反而 会 让 原创 的 东西 变得 很 有 价值。 因为 在 所有的 东西 都 可以 容易 复制 的 时候, 只有 真正 原创 才是 稀缺 的。

其实 你 刚刚 有 提到 你 很 惊艳 的 部分, 就是我 想 反 常识 来 问 一个 问题, 你 觉得 他 有 哪些地方 表现 的 还 不够 好? 因为 当时 我们 有 谈到 整个 GPT 的 准确性 还 不够 高。 甚至 有一个 专门 研究 A I 的 研究员 告诉 我们 说, 如果 你不知道 这个 问题 的 答案, 那 我 建议 大家 如果 真的 是在 做 这种 功课 搜集 的话, 就 不要问 ChatGPT。 因为他 给你的 可能 是 对的, 也 可能 是 胡诌 的。 从 你的 角度, 你 觉得 他在 哪些方面 的 体验 是 可以 直接 到 一个 应用 的 程度。 哪些方面 他 给你的 那个 感觉 是 还不 太行 的。

比较 好的 就是 可以 直接 当 应用 用 的。 首先 我 觉得 所有 与 语言 相关 的 都 可以, 这个 语言 包括 自然语言 和 编程语言。 实际上 现在 很多 人的 代码 已经 有 超过 一半 是 copilot 写 的 了, 这 是一个 很 直接 的 证据。 然后 它 能够 很 好的 完成 像 翻译、 总结、 改写、 扩写 等 一系列 的 这种 语言 任务。 因为 它 本身 就是 大 语言 模型。

第二个 就是说 需要 脑 洞 的, 头脑风暴 的, 甚至 是 胡说八道。 这种 特性 是一个 好处 的 场合。 比如说 怎么样 去 列 一些 提纲, 比如说 我 去做 一个 分享, 这 里面 有 一些 对应 的 提纲 可以 启发 我。 因为 比如说 很多 内容 我是 知道 的, 但是 我自己 第一 反应 未必 能够 穷尽 他。 所以 他 列出来 五六个 可能 发现 我 缺 了 三个, 可以 有效 的 补充。 我 对于 准确度 不是 那么 要求 高 的 人物。 比如说 我要 写一封信 或者说 写 一个 job description, 那 这个 时候 大概 的 内容 他 先 把 我 列出来, 然后 我 再 进行 修改。 我 觉得 这些 都是 大家 已经 用过 很多 的 案例 了。

我相信 如果你 长期 使用 的话, 你 会 意识到 它的 缺点 其实 非常 多。 但是 同时 也 意识到 它 其实 在 非常 快 的 进行 迭代 和 修正。 比如说 刚 出来 的 时候 应该 是 三位数 的 加法, 其实 是 不准确 的。 现在 他 其实 能 做 更 多位数 的 加法, 但是 乘法 上 可能 会 差 一些, 他 对于 事实性 的 问题 肯定 是 不 太行。 所以 我们 说 你 要 从 语言 的 角度 和从 逻辑 的 角度 去 用 ChatGPT。

但 知识 的 角度 很多 时候 需要 通过 prompt 把 它 灌进去, 或者 通过 embedding 的 方式 把 真实的 及时 的 信息 给 快 灌进去。 所以 这 里面 牵扯 到 怎么 去 使用 的 问题。 整体 来讲, 我 觉得 当你 意识到 他 有 这些 缺点 的 时候, 就 不太会 被 他 骗 了。 但是 可能 会 在 比如说 他的 知识 准确度 到 99%, 大概 1% 的 时候, 还会 胡说八道 的 时候, 那个 时候 可能 是 最 危险 的 时候。 因为 大家 现在 都 知道 了 他 会 胡说八道, 所以 就 还好。

所以 我看 后来 就是 你们 在 评价 怎么样 去 看 一个 大 模型 的 时候, 你们是 自己 做了 一个 benchmark, 就 做了 一个 这样的 评估 模型。 从 你的 评估 模型 看啊, GPT4 比 GPT3.5 它 好 在哪儿? 跟 一些 国产 的 大 模型 好 在哪?

首先 介绍 一下 我们 做 的 真棒 这个 背景, 就是我 发现 当 ChatGPT 火 了 之后, 首先 出来 了 很多 也 做 聊天机器人 的。 可能 有的是 用了 ChatGPT, 有的是 说 自己 训 的 模型。 包括 我们 也 看到 肯定 会有 更多 的 人 去做 国产 的 大 模型 的 创业, 包括 说 海外 的 创业 公司。

我们 就 发现 哪怕 很多 很 资深 的 人 在 面临 一个 新的 类似 于 ChatGPT 应用 的 时候, 其实 他 能 做 的 评价 也就是 随便 问 几个 问题。 这种 问题 可能 是 随便 想 的, 或者说 是 难度 比较 低 的。 这样 你 其实 很难 反映 一个 像 ChatGPT 这样的 软件 它的 真实 水平。 并且 我们 自己 也是 众多 用户, 在 用 的 时候, 我们 自己 也会 记下来 一些 很 有意思 的 prompt。 所以 我们 就 觉得, 如果 未来 会有 很多 的 这种 大 模型 类似的 产品。 那 我们 作为 非 技术人员, 我们 其实 也 不想 做 一个 特别 完整 的 自动化 的 严谨 的 测试机。 而是 在 一个 我们 能够 作为 一个 可以 自己 用 手工 去 检验 大 模型 的 边界 能力 的。

因为 如果你 总是 问 很 简单 的 问题, 其实 没有 区分度。 所以 我们 希望 这个 问题 有些 区分度, 但 我们 也 希望 这个 问题 它是 有 来历 的。 虽然 有 一些 是 我们 日常 问 的 一些 比较 有意思 的 问题。 比如说 我记得 一个 很 经典 麻辣 螺丝钉 的 做法, 看 他 会不会 跟着 胡编乱造。 但 同时 学界 其实 有 很多 NLP 任务 的 研究。

比如说 OpenAI, 它 在 ChatGPT 出来 的 时候, 他 就 公布 了 ChatGPT 已经 具备 了 48种基础 能力。 然后 我们 通过 这个 构建 了 第一版 的 这个 问题。 之前 像 M M L U big bench 这些 都是 NLP 领域 比较 成熟 的 测试 集。 我们 从中 抽取 了 一些 各个领域 的 反映 不同 能力 的 内容。 同时 也 根据 比如说 ChatGPT 现在 具备 的 涌现 能力, 比如 他 会 写 代码 了, 他 会 用 svg 语言 给你 画图 了, 他 会 处理 一些 更加 复杂 的 应用题 了, 我们 把 这些 也 加进来。 所以 总共 弄 了 300个问题。 我们 想 对 这个 就是 做到 一个 非技术 非专业 人员 能够 做到 用 手册 自己 手工 输入 测试, 达到 一个 对 大 模型 整体 能力 的 概念 的 评价。 当时 我们在 三月份 测 了 一下, 当时 GPT4 刚刚 出来 两三天 的 时间。 所以 我们 当时 测 到 GPT3.5 的 水平 大概是 六十多 分, 然后 四 的 水平 大概是 七十多 分。

你 这个 六十多 分 是 怎么 打的? 是 300个问题 的 回答 正确度。

回答 正确度 那就 除以 300, 所以 他 答对 了, 比如说 两百多 道 问题, 国产 的。 当时 文心 一言 我们 公布出来 大概是 有一个 二十多 分 的 水平。 我们 还 撤 了 另外 几家 偏 创业 公司 的, 因为 我们 觉得 还是 要 鼓励 创业 公司, 虽然 得分 确实 比较 低, 但 我们 没有 把 它 放 出来。 分别 是 有 一家 是 30分, 有 一架 是 19分。 所以 当时 我们 看到 这个 差距 还是 比较 大 的。

前两天 因为 我们 也 陆续 的 拿到 一些 国产 的, 比如 上市公司, 包括 一些 大型 的 公司 做 的 这个 模型, 我们 又 进行了 一些 测试, 整体 来讲 我 觉得 进步 还是 蛮 快 的。 比如说 我们 测试 的 某 一家 上市公司 的 模型, 其实 已经 到了 50分的 水平, 可以 透露 是 哪 一家 吗? 做 的 比较 好的, 这也是 商汤 了, 就是 我们 测 了 商汤 的 这个 模型 是 五十多 分。 然后 像 昆仑万维, 像 李志 飞 出门 问问 这些 模型, 我们 也 在 陆续 的 去 测。 当然 同时 我们 没 来得及 去 更新, 比如说 百度, 包括 另外 几家 创业 公司 的 模型。

因为我 觉得 大家 现在 迭代 速度 也 很快, 所以 我 觉得 现在 我们 可能 之前 的 得分 这些 也是 一个 参考。 但是 我 觉得 从 这 可以 看出来, 其实 在 早期 的 进步 还是 挺快 的。 虽然 我 觉得 比如说 GBT4 现在 也许 也可以 打 八十多 分了, 但 也就是说 一开始 的 差距 挺 大, 现在 差距 在 短期 来看 是在 缩小。

但是 这 里面 同时 也会 有一个 问题, 就是说 是不是 会有 个 平台期。 可能 你 从 20追到 50是容易 的, 但 50到80 可能 是 很 不容易 的。 这 里面 这个 曲线 会 怎样 呢? 我们 其实 也 不知道, 包括 也 有人说 你的 问题 可能 比较 难, 很多 用户 可能 不会 用 这么 难 的 问题。 所以 我们 一直 在 强调, 这是 我们 自己 作为 V C 我们 希望 比 一般 的 用户 专业 一点点 就可以 了。 但是 它 并不是 一个 特别 科学 特别 严谨 的 一个 测试。 但是 确实 现在看来 区分 还是 有的, 就 很多 问题 还是 不好 答出来 的。 但是 我们 发现 Chat GPT4, 它 确实 是在 一些 逻辑 问题、 语言 问题 上 它的 能力 要 更强, 这个 还是 挺 让人 惊艳 的。

给 大家 举 个 例子, 比如说 是 什么样 的 问题, 然后 3.5 跟 四 还有 文心 一言 他的 回答 是 怎么样 的。

我 具体 要 背 出来 比较 难。 但是 我记得 有 一些 比较 有意思 的, 你 就像 这个 麻辣 螺丝钉 的 做法, 这 里面 应该 只有 GPT4, 它 会 告诉你 螺丝钉 不是 一个 菜, 其他 的 都会 假 模 假 样 和 麻辣 螺丝钉 要 加上 辣椒, 加上 红油, 放入 螺丝钉 少许。 在在 我们 测试 的 时候, 只有 GPT4 告诉你 螺丝钉 不能 吃。 当时 我们 还有一个 很 经典 的 问题, 就是 为什么 爸妈 的 婚礼 没 邀请 我 参加? 这个 里面 只有 GPT4回答 出来 了, 说 你们 那时候 你 还没 出生, 当然 也 不一定, 大部分 情况下 你 没有 出生, 其他 的 可能 模型 都 回答 的 是 说, 可能 因为 当时 他们 太 忙 没 邀请 你 或者 什么 你 当时 没时间。

对我 看到 你们 当时 测 出来 放 的 那个 图片 了。

特别 逗。 当然 这 是一个 比较 逗 的。 还有 一些 就 类似 于 什么 剪指甲、 穿 袜子、 穿鞋、 系鞋带 儿 的 顺序, 很多 他是 说错 的, 当然 这也是 比较 好 理解 的。 其实 有 很多 应用题 什么的, 其实 gbt 4明显 解答 能力 会 强 很多。 但是 我们 其实 看到 有 一些 推理题, 国产 的 大冒险 进步 挺快 的。

你 刚 提到 麻辣 螺丝钉 这个 例子 特别 有趣。 就是 我们 之前 在 播客 录制 的 时候, 有一个 嘉宾 他 就 直接 在 播客 里面 问 我说 红军 你 晚上 吃的 爆炒 篮球 什么什么 的。 后来 因为 我们的 这个 播客 播出去 了 以后, 就有 非常 多 的 听 在 GPT3.5 上去 搜 爆炒 篮球。 我看 按照 他们 评论 的 时间, 最 开始 GPT3.5 还会 一本正经 的 去 解释 这个 爆炒 篮球 是 怎么样 的。 但是 隔 了 一两天, 那个 评论 区 的 反应, GPT3.5 第一次 是 告诉 大家 做了 这个 菜 以后, 然后 说 爆炒 篮球 是 不能 吃, 或者 这样 做 是 有 风险 的。 再 隔 一天 GPT3.5就 会 告诉 大家 爆炒 篮球 不是 一个 菜, 就 不应该 这样 做。 就 证明 看起来 GPT3.5 它 也是 自己 在 进化 的, 而且 进化 的 速度 很快。 对。

首先 你 去 用 ChatGPT 的 时候, 你 会 发现 下面 是 有一个 小 字儿, 告诉你 是用 的 一个 哪一天 的 version。 我 理解 这个 地方 可能 是 他 对模型 会有 重新 的 推演, 影响 这个 过程, 包括 其实 现在 出 一个 3.5, 其实 应该 是 挺快 的 了。 其实 我们在 不断 的 回答, 在 这 过程中 你可以 顶, 你可以 踩, 然后 你可以 regenerate。 包括 你 regenerate 之后, 他 还会 问 你是 比 原来 更好 了 还是 更 差 了。 所以 其实 我们是 在 不断 的 来做 这个 reinforce learning human feedback 这个 过程。 这个 我 觉得 是一个 现在 形成 的 数据 飞轮 效应。 因为 虽然 很多 地方 都有 这种 用户 对话 的 数据, 但是 用户 specifically 跟 一个 聊天机器人 对话, 目前 ChatGPT 的 数据量 是 远远 大于 其他人 的。

你们 这个 benchmark 的 三百多个 问题是 固定 的, 还是 说 它 只是 归 为 某 一种 类型 的 问题, 大家 是 可以 随意 去 测试 的。 就是我 是在 想 有没有 作弊 的 可能性。

肯定 有, 因为 我们 都 放 出来 了, 所以 肯定 会 有人, 比如说 尝试 把 这个 浙江大学 训 一遍。 所以 我们 还是 那句话, 我们的 目标 是要 做 一个 普通人 简单 去 用 的。 我们 主要是 做 投资, 所以 我们 一开始 也 想 了 一些, 比如说 做 一个 明 题和 暗 题, 比如说 每 一道 名 的 题 都有 一道 跟 它 逻辑 类似, 但是 题 干 不一样的 题, 然后 去 看 是不是 换 一个 表达方式, 他 又 认不出来 了 什么的。 但是 我们 最后 还是 觉得 我们 应该 先 放 出来。 因为我 觉得 能够 帮助 大家 去 了解 这个 行业 的 进展。 所以 我们 现在 也 准备, 比如说 把 这套 题库 本身 扩充, 然后 增加 这种 问题 的 设置。 但是 我 觉得 因为 这 本身 不是 V C 的 一个 核心 工作, 更 重要 的 是 说 我们 自己 要 看到 大 模型 能力 的 变化, 其实 也 希望 抛砖引玉, 它 本质 还是 一块 专。

说 到大 模型, 模型 的 变化, 就 可能 过去 两个月 真的 是 进展 太快 了。 你怎么看 过去 一两个 月 在 整个 大 模型 上 有 哪些 进展, 或者说 你 现在 的 认知 跟 两个月 以前 有什么 不一样?

我 觉得 进展 是 非常 大 的。 在 刚 出来 的 时候, 其实 我们 把 它 当做 一个 chatbot, 一个 聊天机器人。 我们 惊讶 的 是 他 能够 多轮 对话, 能够 记住 之前 说 了 什么, 能够 根据 他的 上下文 进行 合适 的 回答。 这 都是 基本上 属于 语言 类 的 任务 或者 NLP 的 任务。 然后 其实 很快 的 就 发现 他 可以 写 代码, 它 可以 帮助 我们 去, 比如说 像 完成 写 营销 文案 这样的 事情, 写邮件 这样的 事情。 当然 还有 图像 类 的 生成 模型, 去 生成 精美 的 图片、 照片、 漫画 什么的。 所以 从 聊天机器人 进入 到 下 个 阶段, 我 认为 叫 copilot, 它 就 能够 帮助 我们 去做 很多 事情。 而 我们 要 给 的 是 目标 进行 选择 进行调整, 这是 第二个 阶段 copilot。

然后 随着 auto gbt baby A G I, 当然 这 还 也 得益于 像 reflection hugging GPT 这样 几篇 paper。 其实 他 又 展现出 了 能够 识别 一个 任务, 把 它 进行 拆解, 分解成 子 任务, 调动 合适 的 工具 去 完成 子 任务, 观察 自己 完成 的 结果, 对 结果 进行 反思, 调整 他 要 做 的 任务 的 这样 一个 循环 过程。 同时 当然 GPT4 也 出了 插件 系统, 让 他 看到 可以 调用 外部 的 插件 去 检索 信息, 去 写 代码, 去 完成 很多 更 复杂 的 任务。 所以 我们 看到 它 从 co pilot 又 进一步 进化 成 agent。 在 agent 这个 设定 下, 它 其实 需要 人 给出 初始 的 目标, 他 就 能够 自我 去 迭代 的 去 完成 这个 目标。

所以 我 觉得 这个 过程 虽然 几个 月 的 时间, 但是 他 其实 这是 几种 不同 的 范式。 我 后来 就在 想, 如果我们 把 它 跟 自动驾驶 去做 对比 的话, 比如说 L 一 可能 就是 完全 没有 A I 这回 事儿。 我们 现在 用 的 大部分 应用 其实 都 A I 没有 做 任何 事情, 都 是人 做 事情。 Level two 的 A I 可能 就是 我们 去 问 AI 很多 问题, A I 给 我们 信息, 但 还是 我 来做 事情。 这个 就 比较 像 ChatGPT, 他 给 我的 是 信息, 那 我还是我 来做 事儿。 Level 3的就是 co pilot, 就是 人和 大家 都要 做 事情。 比如说 像 写 代码 的 github co copilot, 或者 像 minter journey 这些 就是 人 要 给出 prompt, 是要 人 写 的, 人 要 去 改 prompt, 要 去 选择 用 哪一个, 或者 选择 进行调整 A I 完成 初稿, 然后 根据 人的 要求 去 改变 初稿, 这个 就是 人和 A I 各 50。

我 觉得 L 4就像 欧洲 gbt 或者 baby A J 是一个 很早 的 雏形。 这 面 有点像 人, 主要是 第一 给出 这个 目标, 人 去 监督 他 完成 的 过程, 去 检查 它的 结果 是不是 我 想要的。 提供 一些 必须 的 接口, 计算能力 等 资源。 那 AI 自主 的 去 完成 分解 任务, 选择 工具 进行 完成 的 这个 过程。 然后 他 知道 自己 完成 的 时候, 他 会 汇报 我 完成 了。 这个 就是 A I 做 大部分 的 工作, 人 做 指定 和 监督, 这个 我们 叫 L 4。

那 L 五 是什么 呢? 我 觉得 就 可能 像是 人 就 给 一个 目标, 什么 其他 的 都 不给 人都 不用 监督 了。 A I 自主 的 把 所有的 事情 全都 做 完, 并且 可以 一直 延续下去。

在 科幻 里面 有一个 概念, 其实 也不 只是 科幻 了。 冯诺依曼 提出了 冯诺依曼 机器人 就是 可以 自己 复制 的 机器人。 他 可以 自己 收集 资料, 复制 自己, 最后 扩展 到 整个 银河系。

从 某种意义上 讲, 人 可能 也是 一种 完全 自主 的 这样 一个 生物。 如果 有 上帝 的话, 看来 人 可能 也是 这样 一个 level five 的 智能。 所以 我 觉得 这 里面 其实 不同 的 范式 下人 和 恋爱 关系 是 不一样的。 在 几个 月内 我们 就能 看到 三种 关系 的。

一是 出现 我 觉得 是 非常 让人 惊讶 的 一件 事情。 因为 像 agent 的 概念 我 觉得 容易 想到, 但是 你 发现 它 真的 能 用, 其实 是 很 让人 惊讶 的。 因为 这 里面 牵涉到 很多 地方 是 容易 出错 的。 当然 你 用 alt GPT, 你 会 发现 它 很多 时候 会 出错, 但是 它 居然 有的 时候 不会 出错。

他 能把 事情 给 做了, 这个 事 就 已经 足够 让人 惊讶 了。 因为 我们 知道 在 数字世界, 很多 东西 一开始 都很 粗糙。 它 后面 的 升级 过程、 成本 降低 过程、 速度 提高 过程 是 很快 的。 可能 几年 十年的 时间 就 真的 能够 做到 不怎么 出错。 这个 让 我 非常 的 吃惊, 并且 非常 的 激动。

你会不会 觉得 现在 市场上 有 一种 观点, 就是说 可能 我 来做 A I G C 的 这个 应用层, 我 晚 做 几个 月, 反而 是 比你早 做 的 人 可能 更有 优势 的。 比如说 早 做 他们的 模型 都 加 在 GPT3.5 的 开源 模型 上, 然后 晚 座 我可以 直接 接 在 C P T four 的 模型 上。 在 大 模型 改 的 时候, 其实 他们 底层 也要 去 改 很多。 但是 因为 他们的 模型 其实 是 越做越 好, 逻辑 能力 越做越 强。 就是 真正 技术 在 做 的 时候, 他 可能 晚 做, 比 他 早 做, 再 一点点 去 改 那个 框架 是 有 更多 的 优势 的。

我 觉得 当 一个 技术革命 发生 的 时候, 挽救 的 人 肯定 有些 后发 的 优势。 比如说 他 已经 看到 前面 人 踩 的 坑 了, 他 已经 知道 一些 basic practice, 所以 去 用 什么。 但 整体 来讲, 其实 你 会 发现 科技革命 中 做 大事 的 人 一般 还是 早 做 的 人, 为什么呢? 因为 他们 早就 会 先 有 经验, 并且 先 积累 起 资源。 如果 大家 都是 差不多 聪明, 差不多 勤奋 的 情况下, 很难 你说 你 晚 开始 反而 能比 别人 做 的 更好。

我 觉得 你说的 问题 肯定 是 存在 的。 但是 那得 基于 一个 假设, 就是 先 做 的 人 他 没法 把 3.5 换成 4。 但 实际上 也许 这就是 改革 A P I key 的 事情。 但是 在 这 过程中, 第一批 做 AIGC 应用 的 人, 他们 可能 做 的 应用 场景 像 个 玩具 一样, 这是 很有可能 的。 同时 也 很有可能 他们 第一个 产品 不 成功, 第二个 产品 不 成功, 我 觉得 这 都 有可能。 但是 在 这个 时候, 他 比起 没 做 的 人 来讲, 他的 经验 就是 一和 零 的 区别 是一个 非常 大 的 区别。 我们 其实 去 想, 在 技术革命 的 后期, 可能 大家 经验 是 十 和 9的区别 差 不了 太多, 但是 一和 零 的 区别 还是 很大 的。 所以 我 觉得 在 这 里面 未必 你是 第一个 做 的, 但是 一般来说 都 得 是 第一 梯队 做 的。

跟着 这个 技术 一起 成长, 你 才 对 里面 很多 事情 具体 怎么做 是 有 概念 的。 你 去 看 他的 研 报, 看 他的 分析, 对于 里面 的 很多 具体 问题 怎么 解决, 怎么 处理 的 细节, 其实 往往 是 不知道 的。 在 互联网 领域 有 很多 这样的 例子。 比如说 有 一个故事 是 说, 当时 雷军 做 米聊 不是 输给 了 微信。 后来 有 一次 雷军 见到 张晓龙 就 问 你们 怎么 解决 发消息 延迟 的 问题? 张小龙 说 发消息 还会 延迟 吗? 这个 意思 就是说 微信 有 很 长时间 的 做 这个 事情 的 积累, 因为 Q Q 本身 就是 一个 大量 的 用户 发消息 的 系统, QQ 邮箱 也是 一个 大 用户量 的 产品。 所以 他们 很 早就 遇到 了 发消息 会 延迟, 或者说 会 信息 会 乱 的 问题, 然后 去 解决 了。

所以 这 就是你 坐在 前面 你 有了 经验, 虽然 这个 事儿 看上去 都 是一个 事儿, 就是 发消息。 但是 你 后座 的话 不知道 这里 会有 坑, 你 就 可能 在 这 里面 就会 陷 进去。 那么 先 做 的 人 会 在 已经 解决 了 这个 问题 就 会有 经验。 很多 这些 东西 它 并不是 简单 的 说 换 一个 更好 的 模型 就能 解决 它, 就 把 它 弄 好。 所以 我 觉得 一般来讲, 历史上 来看, 科技领域 先发 优势 还是 占多数 的。

我 非常 同意。 而且 我 觉得 我们 看到 的 都是 具体 的 差距。 其实我 觉得 认知 上 有 差距 或者 有 迭代 也是 非常重要 的。 就 比如说 很多 后面 做 的 人, 或者 就是 在 一些 具体 的 事情 上, 有人 会 告诉你 要 规避 哪些 坑 儿, 但是 自己 不走 到 那 一步, 有时候 人的 思维 是 很难 转过 来 的。 就是你 可能 听到 了, 但是 你 没有 理解 他, 所以 你 就 没有 执行, 在 有 动作 的 时候 就 变形 了。

但 另外 一种 有 后发优势 的, 就是说 之前 你不知道 这件 事儿 能 做, 但 有的 时候 你知道 第一 他 能 做, 第二 用 这么 多人 这么 多 钱, 用 这个 方法 就可以 做到, 这个 是 事实上 有 后发优势 的。 其实我 为什么 认为 国产 做大 模型 可能 没有 大家 想 的 那么 悲观 和难 呢? 也是 基于 这个 假设, 很多人都 拿 哥伦布 去 新大陆 打比方, 我 觉得 这是 贴切 的当 你不知道 有 新大陆, 也 不知道 新大陆 有多远, 也 不知道 新大陆 是不是 必须 得 坐飞机 才能 去 的 时候, 其实 你是 冒 很大 的 风险。 但是 当 你知道 新大陆 就在 西边, 用 这样 大 的 一艘船 带 两个月 的 给养, 坐船 就可以 去 的 时候, 这就 变得 非常重要 了。

就 当年 原子弹 其实 是 一样的, 原子弹 能 炸 其实 就是 一个 非常 关键 的 信息。 我 觉得 现在 大 模型 做到 大概 这个 参 数量 与 dataset 的 大小, 它 就 能够 出现 这样的 能力。 这 其实 也是 一个 很 重要 的 确定性 信息。 所以 我 觉得 大家 在 追赶 上面, 其实 是 有 很多 可以 节省时间 的。 现在 大家 肯定 就 用 GPT 这样的 预 训练 文本 的 技术 了, 就 不会 再 用 bert 这种 双边 生成 的 技术 了, 这就是 一个 典型。 所以 我 觉得 这 里面 是 可以 少 走 一些 弯路 的。

当然 在 那个 里面, 比如说 在 数据 清洗, info 这些 地方 的 很多 know how, 我 觉得 也是 没法 忽略 的, 肯定 要 去 经历 去 探索 这个 know how 的。 所以 为什么 比如说 像 王 慧文 老王 他 选择 立刻 开始 呢? 也是 基于 一个 很 朴素 的 信念。 既然 已经 对 这个 革命 它的 尺度、 它的 规模 有了 充分 的 信任 信仰 之后, 那 早 开始 总 比 晚 开始 要好。

因为你 正好 提到 中国 的 大 模型 了, 然后 我看 中国 最近 也是 一个 是 大厂 的 大 模型 在 密集 发布。 比如说 百度、 阿里、 华为 都在 发布。 另外 是 中国 有 一些 上 一批 科技 创业 的 人, 互联网 跟 移动 互联网 创业 的 成功者, 他们 也 在 做大 模型。 比如说 你 刚刚 提到 王 慧文 的 公司, 还有 王小川 的 公司, 那 贾 扬 青 跟 李志 飞 之前 说 要 做大 模型, 我看 他们 现在 做 的 好像 也不 算是 大 模型, 算是 应用。 可不可以 跟 大家 介绍 一下, 现在 大家 做 的 大 模型 分别 是什么? 哪些 是 大 模型, 哪些 可能 是 我们 理解 有误?

这个 事情 也是 在 不断 的 变化 的。 目前 来看, 比如说 这些 大厂, 不管 是 百度、 字节、 阿里、 腾讯, 包括 商汤、 360、 出门 问问、 昆仑万维。 这些 其实 是 说 要 做 一个 大 模型。 或者说 是 大家 理解 的 这种 几十亿 上 百亿 参数 的, 能够 解决 很多 NLP 和 通用 领域 的 问题 的 这种 大 模型。

这 里面 比如说 像 王 慧文、 王小川, 像 质朴 这些 其实 也都 是在 做大 模型 这样的 事情。 质朴 是 支援 分拆 出来 唐杰 老师 带队 的 团队, 这些 我 觉得 是 比较 明确, 就是说 做 一个 比较 像 GPT3.5 或者 GPT4 这样的 大 模型。 看 比如说 像 杨青 是要 做 一个 偏 middle are 的 创业 公司。 当然 它 也有 一个 宣传 新闻 内容。

就是我 觉得 在 这 过程中, 肯定 大家 会 发现 大 模型 是不是 适合 我 做, 以及 说 是不是 现在 做 还有 最好的 机会 和 时机 去做。 我 觉得 这 肯定 很多人 会 见仁见智。 有人 会 觉得 可能 不 适合 我 做 的 机会, 我 去做 更加 一个 适合 我 做 的 机会, 这 都很 正常。 同样 现在 大家 也 是因为 只 看到 了 一个 把 大 模型 做出来, 先 有 ChatGPT 才能够 去 延展 的 这么 一个 逻辑。 但 我 完全 可以 想象, 假设 大家 后来 发现, 比如说 第一 有了 一个 很 好用 的 大 模型, 但是 可能 会对 很多 人的 做法 会 变得 不太 一样。 因为 现在 大家 是 都 没有 去 抢 到 这样 一个 头筹。

那 如果 有人 已经 做出来 一个 足够 好的 大 模型, 可能 有的 团队 就会 想, 我 是不是 转 去做 应用 会 更好。 这样 就是说 是不是 只有 做大 模型 才是 认知 现在 的 A G I 或者 未来 的 A G I 能力 的 唯一 途径。 也许 我们 会有 别的 方式 去 理解 这件 事情, 所以 也许 有人 发现, 其实我 没 必要 做 个 大 模型。 但是 目前 来看, 就 好比 说 目前 只有 坐船 能够 去 美洲, 所以 大家 先 都 得 造船。 也许有一天 爸 有 飞机 了, 那就 不用 造船 了。 但 目前 来看 只有 坐船 才行, 所以 大家 都 得 造船。

但 到了 美洲 之后 干嘛? 那 也 不一定, 有的 去 种 棉花, 有的 去 挖 煤炭。 但是 大家 说 你 现在 船 都 没有, 那你 就 没法 去 开始 这件 事儿。 也有 可能 开通 了 一条 航线, 泰坦尼克号 在那 坐 渡船, 那你 就 不用 自己 造船, 都 有可能。 现在 就是说 大家 都 没有 船, 所以 大家 都 先 第一 反应 自己 造, 这个 是 很 正常 的 情况。

在 美国 现在 大家 其实 不怎么 去 有 独立 做大 模型 的 新公司 了。 是因为 已经 有 几条 固定 银行 线 了, 有 open I 号, 有 这个 cloud 号, 还有 cohere 或者 是 bar 的 这些 就是 大家 发现 这 有 几条 航线 了。 那 我 干脆 就 去 想 去 美洲 之后 干嘛呢?

就是 做 应用 了。 中国 的 大 模型 你 觉得 未来 是一个 怎么样 的 格局? 可能 是 一家独大 还是 说 多家?

我 觉得 这个 问题 肯定 不止 是 中国, 包括 全世界 的 角度 都 是一个 还 不知道 的 问题。 这 是一个 bender 了, 甚至 确认 到了 question, 我 觉得 它是 一个 光谱。 比如说 集中度 最高 的 形式 可能 像 google, google 一家 占 了 93% 的 收入 引擎 份额。

如果 大 模型 第一, 它是 一个 to c 为主 的 场景。 就 比如说 可能 以后 有 很多人都 会 用 一个 像 ChatGPT 这样的 助理, 且 它的 技术 始终 是 比较 难 的, 就是说 第一名 始终 有 比较 大 的 领先优势。 那么 我可以 想象 可能 大部分 人 最后 都 只用 某 一个 最 领先 的 助手, 可能 是 ChatGPT, 可能 是 某 一家。 因为我 没有 道理 去 用 一个 第二名 的。 至于 跟 搜索引擎, 如果你 都 超 不过 google, 我 肯定 没法用。 你。 哪怕 你 能 超过 google, 只要你 超过 的 不是 太多, 我 也没有 动力 用。 所以 这就是 最 收敛 的, 叫 赢家 通 吃的 格局。

如果说 第一 是 OpenAI 没办法 长期保持 一个 特别 遥遥领先 的 状态。 我们 使用 大元 模型 主要 的 场景 是 通过 to b 的 应用 来 使用, 而 不是 直接去 用 一个 ChatGPT 这样的 助手。 那么 它 就有 可能 形成 一个 公有 云 这样的 格局。 就是 第一 梯队 可能 有 2到3家, 3到4家 都 还 不错, 各有特点。 比如说 你的 擅长 图像, 我的 擅长 推理。 这样 用户 用 的 主要是 用 这些 大 模型 作为 底层 构造 的 应用。 那 这样 就有 可能 像 公有 云 一样, 比如说 有的 跑 在 A W S, 有的 跑 在 aura, 有的 跑 在 google cloud service 上, 这些 都 有可能。

还有 一种 可能, 就是 大 模型 这 事儿 现在 很 厉害, 但是 逐渐 变成 一个 commodate, 变成 开源 的。 很多人都 是 自己 用 一个 开源 的 加以 微调 之后, 部署 在 自己的 云 或者说 服务器 上。 那 这个 时候 可能 就 变成 了 一种 百家争鸣, 或者说 有 各种各样 的 开源 模型 的 阶段。

这个 时候 也许 OpenAI 它是 一个 开创者, 但 也许 之后 他的 大量 技术 变成 人类 所 工 有的 技术, 这也是 很多 时候 经常 发生 的。 比如说 当时 人脸识别 出来 的 时候, 其实 也是 一个 石破天惊 的 技术。 但 后面 人脸识别 每个 应用 都 有你 也 不会 特别 介意 他用 的 谁的 人脸识别 技术。 这种 情况下, 它 往往 意味着 技术 它 有 个 终点, 或者说 大家 都 做到 了 GPT4 的 能力 都 差不多 了, 但是 也 没法 出来 一个 更 上 一个 台阶 了。 所以 我 觉得 这 里面 很 看 未来 这个 技术 终点 在哪里, 主要是 to c 还是 to b 其他 家 追赶 的 速度 怎么样? 所以 其实 都 有可能, 这 里面 其实 不好 讲。

其实 在 聊到 中美 大 模型 的 时候, 大家 都 会谈 到 芯片。 你 刚刚 也 提到 了, 比如说 现在 很多 中国 的 大 模型, 他们的 得分 从 二三十 分 上升到 了 五十多 分、 六十多 分。 其实 在 我 理解 之前 有 很多 中国 的 大厂, 他们是 有 屯 很多 A 100芯片 的那 如果说 未来 芯片 不能 持续的 供应链, 而 美国 的 芯片 还在 持续的 进化 中。 比如说 H 100会出来, 那 中国 的 芯片 它的 这个 性能 或者说 他 跟不上, 那你 觉 不 觉得 他 可能 会 是一个 越拉越 远 的 战局?

我 觉得 就 还是 要 从 几个 方面 去 想。 第一个 就是 是不是 这 是一个 百公里 长跑, 还是 一个 百米赛跑? 比如说 如果 它是 一个 很快 会 遇到 瓶颈 的 事情, 那 可能 现有 的 算 力 就 够了。 你 也许 不用 训练 那么 大 的 模型, 或者说 就 训练 现在 这么 大 的 就可以 了。 另外 一种 情况 是 它 以后 要 越来越大, 所以 现在 的 这个 芯片 就 不能用 了。 虽然 我们 现在 很多人 觉得 可能 是后 一种 可能, 但是 首先 它是 有 多种 可能性 存在 的。 第二 就是说 这个 训练 的 效率 和 方式 方法 本身 也是 在 不断提高 的。 在 之前 需要 这么 多 算 力 训练 的 模型, 在 现在 也许 会有 更好 的 方式 去 训练。

第三 就是 刚才 说 的 这些, 我们 本质 上 可能 是 希望 我们的 半导体 工业 能够 发展。 我们 有一天 也 能够 有 世界先进 水平 的 GPU 也好, 或者 A I 芯片 去 进行 这种 训练。 当然 好的 情况 肯定 是 说, 要么 是 中美关系 缓和 了, 我们 同样 能够 买到 这些 先进 的 芯片, 有可能 同时 也是 说 我们的 芯片 公司 真的 也 做出来 了 可以 跟 英伟 达 媲美 的 这种 芯片, 我 觉得 这 肯定 是 好的 情况, 如果 不好 的 情况, 那 就是 只有 自力更生, 用 这种 方法 去 尝试 解决 了。

但 我想说 的 是我 觉得 当我们 再去 追赶 的 时候, 我们 往往 会 把 一些 问题 给 简单化。 芯片 现在 是个 显然 的 问题, 就 好像 说 买 了 1万块 芯片 A 100就能 解决 这个 问题 一样。 其实我 觉得 不是 这样的, 就是现在 我们在 数据 芯片 info 算法 这方面, 其实 有 很多 需要 去 解决 的。 我 就 不宜 把 这个 问题 简单化 成 一个 买 1万块 芯片, 好像 说 只要 花钱 就能 解决 的。

实际上 我 遇到 了 这些 真正 在 好好 做 这件 事情 的 人, 其实 他们 都会 意识到, 第一, 你 哪怕 是要 1万块钱 100, 国内 现在 也是 有 这样的 数量 的。 第二, 就是现在 我们 离 用 好 1万块钱 一百 还差 很远。 第三, 这 里面 其实 每一个 环节 里 都有 很多 要 解决 的 问题。 你 要 去 探索 怎么 去做 一个 比如 3.5 水平 的 模型, 其实 不用 1万块100, 因为你 想想看 gbt 3其实 是在 1万块 V 100上训练 的。 GPT3.5 就是 所谓 的 InstructGPT, 是一个 小 很多 的 模型, 它 并不一定 是 一定要 训练 这么 大 的 参 数量 才能 训练 出来 的 模型。 所以 这 里面 其实 有 很多 跟 芯片 一样 重要, 甚至 在 短期 可能 比 芯片 更 重要 的 问题。 我 觉得 这 里面 问题 还是 比较复杂 的。

中文 互联网 的 数据 你 觉得 它 会 是一个 问题 吗?

我 觉得 完全 不是 一个 问题。 因为 简单 的 来讲 就是 ChatGPT 并没有 用到 什么 独有 的 中文 数据, 它 就 已经 在 中文 上 具有 这么 好的 表现。 当然 GPG4 可能 多了 很多 独有 的 东西, 或者说 它 有 很多 微调 的 内容。 但 如果你 从 这个 pre training 的那 部分 来看 的话, 实际上。 V K P D, common crown 对应 的 paper codex 这些 其实 很 大量 是 通过 英文 然后 泛化 到 中文 来 的。 所以 在 这 里面 我 觉得 至少 第一性 原理 上 不存在 说 open I 有什么 我们 没有 的 中文 数据, 但是 怎么 去 用 现有 的 中文 数据 去 进行 清洗, 包括 后面 的 这种 标注 进行 human feedback, 这些 弄 好 反而 是 非常重要 的。 这个 我 觉得 是一个 我们 需要解决 的 工程 问题, 但 不是说 我们 没有 这些 预料 的 问题。

之前 每次 你 见 我, 你 都会 问我 一个 问题, 我 最近 见过 的 最 厉害 的 人是谁? 你 这次 来 美国, 你 觉得 你 见到 了 哪些 厉害 的 人? 他们 有 给你 哪些 启发?

也 不好 说 最 厉害 的 人是谁。 但是 比如说 一路 下来, 我们在 湾区, 在 波士顿, 在 纽约、 匹兹堡, 其实 跟 很多 做 A I 的 这些 研究员, 包括 工程师 去 沟通交流。 我 觉得 还是 从 很多 具体 时间 的 角度 去 学习 怎么样 做大 模型。 包括 说 视觉 模型, 以及 现在 大家 关注 的 一些 重点难点 是什么, 我 觉得 是 挺 有 帮助。

我 刚才 说到 如果说 我们 从 隔着 一定 距离 去 看, 就 容易 把 这个 问题 给 简单化。 简单化 成 比如说 我 怎么 买到 1万块 芯片, 或者说 我 怎么样 挖 到 比如说 open I 的 人, 或者说 我 怎么样 去 收集 语料 什么的。 但是 我 觉得 跟 他们 交流 下来 就 发现 这 里面 有 很多 工程 的 细节 都是 很 重要 的。 以及 说 为什么 它是 一个 这样的 由来, 中间 经历 了 什么 故事。 我 觉得 这件 事 把 它 拆 细 了 看, 会 看到 很多 细节 和 脉络。 当然 对 我们的 角度, 首先 是 想 发现 未来 创业者, 我们 其实 不是说 要 去 自己 做 一个 大 模型, 不可能 具备 那个 能力。 所以 我们 只是 说 想 进一步 的 去 探讨 这 里面 有 哪些 难点, 或者 哪些 值得注意 的 地方。 整体 来讲, 我 觉得 还是 在 学习 阶段。

实际上 你 要 问我 见到 最 厉害 的, 我 觉得 不是人。 而是 在 这个 旅程 中 我们 看到 了 auto GPT。 我 觉得 RGB t 是一个 让 我 觉得 非常 震撼, 同时 也 进一步 的 加强 了 忧虑 的 事情。 是因为 这种 recursive 自己 去 执行 的 demo 出来, 它 其实 是 具备 很强 的 不 可控 的 力量。

这 里面 我 觉得 A I safety, A I alignment 这些 问题 会 变得 很 重要。 其实 在 这个 旅途 上, 我是 最 被 欧洲 GPT 震惊, 当然 如果我 见到 三胞胎 们, 肯定 他 会 讲 一些 让 我 很 震惊 的话。 但 可惜 我们 也 见 不到 三 猫头。 但是 你 要说 有一个 特别的人 讲 一句 特别 话, 我 倒 觉得 没有 那样 一个 时刻。 但是 有 很多人 讲 了 很多 有意思 的 东西, 我是 觉得 挺 有意思 的。

你 刚 提到 你来 慢慢 理解 了 GPT 它是 怎么 被 做出来 的, 他 中间 经历 了 哪些 重要 的 时刻, 我想 我们的 听众 可能 也会 很感兴趣, 能不能 大概 的 介绍 一下 几个 关键 节点。

像 现在 微软 它是 可以 每天 训 一个 GPT3, 就是 训练 一个 GPT3 已经 变成 一个 顺手 就可以 做 的 事情, 一天 训 一个。 但是 微软 自己是 没法 训练 GPT4 的, 是 需要 再 尔朱 尔 那 台 专门 为 训练 GPT4 打造 的 超 算 上才 可以 训练。 所以 你 会 发现 这 里面 这个 训练 的 难度 是 高了 很多。 尤其 把 这么 多 算 力, 把 它 有效 的 组织 起来, 这 其实 是一个 很 一线 很 前沿 的 问题。

我 很 好奇 就是 为什么 微软 可以 随便 训练 一个 GPT3 呢?

就是 GPT3所 需要 的 算 力 以及 对应 的 架构 已经 很 成熟 了, 你可以 直接 通过 云 服务 就 拥有 这样的 算 力。 但 GPT4 需要 的 算 力 是一个 新的 级别, 比如说 其实 GPT4 初始 的 能力 更强 很多, 我 看过 一些 没有 经过 微调 的 GPT4, 比如说 画 出来 的 图像, 它是 要 比 现在 的 GPT4 画质 图像 更 精细 很多 的。 如果 你看 了 那 篇 通用 人工智能 的 火花 那 篇 论文, 你 发现 GPT4是 可以 画图 的。 比如 它 里面 画 了 个 独角兽, 但是 那个 已经 是 经过 微调 之后 的 GPT4 画的 了当 没有 经过 微调 的 GPT4 画的 图, 其实 要 比 那个 机器 很多。 换句话说, G P 是 为了 和 人类 对齐, 牺牲 了 很多 它的 能力。

当 三八 他们说 他们 没有 在 训 GPT5 的 时候, 我 觉得 是 有 道理 的。 因为 GPT4 现在 还是 冰山一角, 他 能 做 很多 事情, 我们 可能 还 想象 不到。 其实我 跟 一个 朋友 在 讨论 的 时候, 我们 经常 说到, 如果我们 现在 斩钉截铁 的 说 一件 事儿, GPT4 做不到, 往往 是 我们 低估 了 他的 能力。 我们 还在 不断 的 向 欧洲 GPT, 这样 发现 他 其实 可以 做 很多 我 没想到 的 事情。

其实 很多人 会 忽视 的 一点 就是 在 InstructGPT 训练 的这 过程中 做 的 数据 标注 和 R L H F 这 一块。 其实 我们 可以 想一想, 你 要在 很多 专业 的 领域 生成 很 好的 范文。 同时 比如说 对于 像 ChatGPT 这样 生成 的 某个 专业 领域 的 很长 很多 的 多个 答案 进行 排序, 这 其实 不是 个 简单 的 事情。 比如说 你 问 他 一个 生物 的 问题, 他 给你 几种 回答, 然后 你说 哪个 更好。 这 其实 需要 很多 专业 能力 和 技能。

这 之前 本来 大家 觉得 可能 是一个 需要 成千上万 人 干 好多年 的 事情, 没想到 居然 是 几 11百个 人 干了 两个月 的 事情。 在 这个 里面 像 surge scale 这样的 公司 扮演 的 作用 是 很大 的。 你 能把 这件 事儿 高效 的 大规模 的 去做。 这个 其实 是一个 不是 所谓 的 火箭 科学, 不是 rocket science, 但是 它是 一个 很难 的 工程 问题。 所以 在 这些 领域 我 就说 有 很多 问题。 当我们 真的 去做 的 时候, 可能 会 发现 不是说 简单 买的 芯片 插上 就可以 训 出来, 它 会有 很多 的 工程 具体 要 解决 的 问题。 所以 我 觉得 这些 都是 很 有意思 的。 看到 的 更 全面 的 东西。

你 刚刚 提到 GPT four, 它 没有 经过 微调, 以前 的 版本 比 他 真正 放 出来 的 要 强大 很多。 因为 在那 篇 论文 里 他 也 写 到了, 就是说 他 其实 是 经历 了 八个 月 的 安全 测试, 他是 为了 让 他的 安全标准 不停 的 能 达到 来 适应 人类, 不至于 让 他 比如说 有 种族歧视 是 或者 有 一些 他 不应该 出现 的话。 但是 现在 我看 业界 大家 也没有 讨论 就是 GPT5 的 这种 出现 的 可能性。 未来 比如说 这个 GPT 他 如果 还要 去 进化, 就是 他的 这种 能力, 他 会 是什么 呢? 他 会 是 把 那个 未 阉割 的 版本 再 放 出来 一些, 还是 什么? 我 不太 理解。

很多 问题 只有 赛罗奥特曼 能 回答我 感觉 但 我 觉得 aligned 会 是一个 很 重要 的 话题。 因为 能力 越大 责任 越大。 尤其是 当 auto GPT 它 可以 选择 工具 执行 外界 任务, 并且 自发 去 执行 的 事情 发生 了, open I 让 我 觉得 很 厉害 的 一点 就是 他们 一开始 是一个 研究机构。 一开始 的 时候 其实 是 研究 的 很 发散 的, 很多 话题 都 研究。 他们 也 研究 打游戏, 他们 也 研究 各种 的 领域 的 A I 问题。 但是 他们 逐渐 的 中间 发生 了 一次 相变, 变成 了 一个 做 产品 的 公司。

其实 GPT4 发布 的 时候, 我 听到 两种 声音, 有的人 说 很 失望, 因为 居然 就 做了 一个 图图 都 没有 做 纹身 图, 也没有 做 视频, 也没有 做 其他 的 多 模态 什么的, 并且 这个 图 的 A P I 还没 出来, 好像 主要 的 还是 这个 文字, 觉得 有点 失望, 因为 没什么 新 东西。 但 另外 一批 人 觉得 很 厉害, 比如 像 我们 去 测试 了 很多 原来 3.5 答 不好 的 问题, 看 他们 打 好了, 当然 后面 插件, polo GPT 这些 出来 就 更 厉害, 对 吧? 我 觉得 这 恰恰 反映 了 说 OpenAI 在 用 一种 做好 产品, 做 一个 上亿 人 使用 的 基础 产品 的 态度 去做 这件 事情。 如果 是个 学术研究 机构, 他 会 很 有 动力 去 第一个 发 视频 到 文字, 或者说 文字 到 视频 或者 什么的 这种 研究 结果。 但是 OpenAI 选择 了 把 已有 的 做 扎实 做好, 这个 是 很 不容易 的。

我 觉得 在 这个 里面, alignment 是一个 尽管 被 强调, 但 可能 还是 比较 被 低估 的 一个 话题。 举 个 例子, 应该 跟 什么样 的 价值观 去 alignment 的? 现在 可能 本质 上 还是 跟 美国 加州 的 一群 白人 男性 去 阿莱曼。 全世界 有 很多 文明, 在 一个 文明 完全 OK 的 事情, 在 另外一个 文明 可能 是 非常 不 OK 的。 同样 我们的 价值观 变化 也是 很快 的。 十几年 前 我在 美国 读书 的 时候, 同性 婚姻 还是 非常 禁忌的 话题。 当时 奥巴马 竞选 其实 都是 不 允许 同性 婚姻。 但是 现在 同性 婚姻 当然 是一个 大家 都很 欢迎 的 价值观。

这个 过程中 你 会 发现 A I 跟 什么 对齐, 如何 去 动态 的 去 调整, 其实 都 会有 很多 的 问题。 在 这个 过程中, 我 觉得 也 可能 需要 一些 跨国 的 合作, 就像 我们 有 核不扩散 的 国际公约 一样。 但 核不扩散 是 好 检验 的。 因为你 做 核试验, 天上 有 卫星 看着, 但是 你 在 你的 计算机 里 跑 着 最 先进 的 A I 实际上 很难 被 看出来。 但 这个 里面 怎么样, 对于 这种 我们 又 未知, 同时 也有 可能 很大 破坏 的 应用 去 进行 监管, 进行 安全 的 保障。

虽然 那 封 公开信 传 的 很 广, 我是 不 赞同 公开信 里面 说 的 停止 研究。 因为我 觉得 好人 停止 研究, 坏人 继续 干嘛。 而且 并且 我 觉得 你 只有 继续 研究 才知道 他是 怎么 回事儿。 但是 我 觉得 确实 我们 面临 的 东西 其实 是 可能 带来 很大 的 破坏 的。 并且 我 悲观 的 觉得 可能 得 产生 一两次 大 的 破坏 之后, 人们 才会 真正 的 去 把 这个 事情 提到 日程 上来。 就 跟 我们 这个 核 泄露 之后, 大家 可能 才会 制定 核 安全法, 包括 数据 泄露 之后 才会 制定 数据 安全法 一样。

我 觉得 可能 得 经历 一些 大 的 事故, 因为 这 里面 他 因为 没有 实体, 所以 往往 他 会 被 人 低估。 我 觉得 我们 把 插头 拔 了 就行了, 但 实际上 他 其实 现在 的 能力 已经 可能 造成 一些 破坏 了。 随便 举 个 例子, 比如说 上一次 美国 大选 的 时候, 其实 就 指控 有 敌对 国家 通过 facebook 投放 虚假 广告 来 干扰 选举 结果。

你 想 现在 的 大 语言 模型 是个 说服 能力 可以 很强 的 一个 工具。 因为他 可以 把 所有的 心理学 语言学 技巧 全部 集中 起来, 调动 全部 的 这种 知识 语料 逻辑, 想 去 说服 一个人。 简单 来讲, 比如说 电话诈骗, 杀猪 盘 对 吧? 现在 是 比较 弱智 的 骗术, 那 以后 可能 是 很强大 的 骗术。

但是 进一步 的 去 想, 假设 说 在 一个 选举 中 可以 用 A I 打电话 给 比如说 100万个 关键 选民, 因为 其实 美国 大选 关键 的 选民 可能 就是 几万人 研究。 因为 这 几 两只 都很 结果 都很 紧, 都 非常 的 接近。 那 可能 我 打电话 去 劝说 这 100万人, 有 1万人 改 了 他的 投票, 也许 美国总统 就 变了。 这 可能 就是 非常 大 的 一个 变化。

这 其实 都 不用说 什么 天网、 终结者, 其实 就可以 说 人和 A I 去 配合 去 进行 大 的 破坏。 比如说 你看 OpenAI 的 插件 系统, 其实 是 只 能够 读 互联网, 不能 写 互联网。 这 可能 是 很 重要 的 安全 防范措施。

否则 的话 每个 人都 可以 生成 一堆 fake news, 然后 直接 发到 网上 去 pose。 你 会 发现 大量 的 信息 就会 充填 互联网。 这 只是 非常简单, 现有 的 技术 就 完全 可以 做到 的 事情。 其实 你 想 如果 auto GPT 这样的 应用 去 调 一个 发消息 的 A P I 或者 一个 发 内容 的 一个 A P I, 它 完全 可以 不知疲倦 的 生成 真假难辨 的 虚假 内容, 去 填塞 整个 互联网。 那 假设 你说 用 这个 对 一个人 进行 诽谤, 或者 制造 一些 虚假 的 信息, 那 岂不是 很 容易? 这些 我们 都不 谈到 说什么 A I 对 人类 要 什么 消灭 人的 那些, 我 觉得 那些 还是 属于 偏 科幻 领域 的。 但是 在 目前 它是 个 强大 的 语言 工具, 而 我们 又 很 缺乏 对于 一个 看似 形式 很 完善 的 谎言 的 识别 能力, 所以 这 其实 是 很 危险 的。

你怎么看? 马斯克 一边 主张 叫停 对 大 模型 的 研究, 然后 另一边 又 自己 去做 一个 这样的 事儿。

马斯克 是一个 非常 think cloud 的 人, 他是 把 自己的 想法 会 不加 修饰 的 直接 说 出来。 包括 我 听说 也有 一些 open I 的 早期 支持者, 对于 OpenAI 现在 变成 了 close A I 还是 有 一些 看法 和 意见 的。 Close A I 就是说 它 没有 开源, 对 OpenAI 不 open, 对它 不 open 听说 是 会 有些 意见 的。 但 一楼 musk 肯定 是一个 最 直接, 不仅 要说 出来 我 还要 干 的 人。 有的人 可能 不 只是 说 去 用 别的 方式 去 把 这 老虎 卖 了 之类 的。

我 觉得 各有 各 的 道理。 就是我 觉得 OpenAI 说 这个 技术 太危险 了, 所以 我要 不能 让 它 开源, 我 觉得 也是 对的。 因为 开源 的 时候, 我 觉得 比较 适合于 这种 对 它的 潜在 风险 已经 有 个 大概 概念 的 一个 领域。 他 现在 对于 GPT 是 这么 强大 的 系统, 如果你 连 它的 能力 我们 都 没有 认识 清楚 的话, 贸然 开源 可能 确实 是 有 很大 的 风险。

但 另外 一方面, 我 觉得 也有 很多 商业 意义 上 或者 是 舆论 意义 上 的 这种 竞争, 这种 吵吵嚷嚷 总是 有 很多 的这 里面 关键 还是 说 本质 上 我是 比较 相信 开源 的。 但是 我 觉得 肯定 不是 从 一开始 就 开源, 可能 还是 我们 要 对它 有 更多 的 了解。 至少 我们 知道 怎么 防御 之后 开源 我 觉得 会 比较 好。

我 觉得 OpenAI 的 股权 设置 也很 有意思, sam 本人 他 其实 是 没有 任何 OpenAI 的 股权 的, 如果我 没有 记错 的话, 应该 是 零 股权。 他们的 几个 科学家, 像 伊利亚, 还有 那 叫 greg brock man, 其实 主要 的 股权 是 给 这些 科学家 的。 他的 公司 设置 最 开始 也 是从 非盈利 型 公司, 后面 是在 非盈利 下面 又 设 了 一个 盈利 型 公司。 如果我 没有 记错 的话, 它 盈利性 那 一部分 如果 有 股权 就有 财务 回报 的话, 那么 他在 董事会 上 他的 投票权 是 没有 的。 但是 sam 选择 了 不要 钱, 要 投票权。 我是 在 想 为什么 他 要 去做 这样 一种 设置? 是不是 说 未来 就 比如说 要 实现 A G I, 他 前面 还是 要 忍受 很 长时间 很久 的 不 盈利, 然后 去 做到 他 最终 的 那个 目标 的。 他 很 怕 这个 事情 被 商业 所 带 歪。

我们 这 都是 局外人, 甚至 都 不是 很 接近 的 局外人。 只有 去 从 他 表面 去 看, 其实 他 提到 了 一点, 就是说 微软 现在 有 49% 的 收益权。 我可以 给你 赚钱, 但 你 拥有 的 是 收益权, 你 不能 有 控制权。 因为 他们 从 一开始 就 本质 上 的 去 相信 这样的 技术 很 危险, 需要 得到 有效 的 监管 和 控制, 不 能够 落入 邪恶的 大公司 手里。 但是 又没 办法, 因为 大公司 有钱 能够 帮助 他们 去 开发, 所以 才 定下来 这种 收益 和 控制 分开 的 这样 一个 协定。 然后 才有 你 赚钱 你 就 不能 投票 的 这种 逻辑, 就是 投票权 和 赚钱 你 只能 选 一个。

我 还是 挺 相信 这一点 的, 说实话 我是 觉得 这 是一个 很 诚恳 的 一个 表达, 也是 一个 很 美国式 的。 我 把 这个 话说 清楚, 你 要么 赚钱, 要么 有 控制, 你 只能 选 一个。 我 觉得 其实 是一个 很 有意思 的 设定。

Open I 最 开始 的 时候, 它 能够 吸引 很多 优秀人才, 就是 因为 它 不是 一个 在 CoOperate 里面, 你 需要 去 完成 一些, 比如说 让 更 多人 看 广告 这样的 事情。 但 同时, 它 又有 很多 捐赠, 所以说 你 还是 可以 过上 不错 的 生活。 但 到 后面 确实 open I 自己 需要 很多 钱, 同时 这些 员工 人 也 变 多 了也 需要 更多 的 激励, 所以 后面 变成 了 一家 公司。 但是 他 还是 要 解决 公司 做大 了 被 资本 裹挟 的 这个 问题。 所以 我是 觉得 这个 解决方案 还 蛮有意思 的。 但 也是 需要 真的有 非常 有 vision 的 人, 而且 有 实力 去 说服 别人 的 人才 能 达成 这么个 方案。 否则 对 微软 来讲, 我 花了 这么 多 钱, 当然 我也 赚 很多 钱, 但是 最后 我没有 得到 A I 这 其实 也是 一个 常理 来讲 不一定 能被 说 接受 的 方案。

因为 你们 现在 其实 投 大 模型, 也 投 应用层, 我 很 好奇 从 投资 的 角度, 你 会 怎么 去 判断 一个 项目, 甚至 是 一个人 他 是不是 值得 你 投 的。 我记得 广 密 当时 在 朋友圈 发 了 一条 文字, 她 就说 中国 什么样 的 人 能 做出 OpenAI? 我不知道 你们 怎么看, 这个人 需要 具备 哪些 素质。

其实我 觉得 做 OpenAI 和 做 其他 的 公司 需要 的 一些 底层 能力, 我们 一直 认为是 类似的。 比如说 我们 一直 说 创业者 的 一些 基础 能力, 比如说 学习力、 领导力、 创新力、 意志力, 我 觉得 这些 是 比较 普 适 的。 Open I 有 它的 历史背景, 有 他的 成长的 国家 和 市场 环境。 第一个 去做 和 第二个 做 也 不一样。 第一个 可能 需要 很强 的 探索 能力, 但 第二个 可能 说 往往 需要 是 执行力。 所以 我 觉得 不宜 直接去 类比。 但是 我 觉得 我们 几个 人的 搭配 确实 是 非常 厉害, 每个人 在 自己 应该做 的 事情 上都 是 世界 顶级 的。 而且 其实我 当时 翻译 过 一篇 brock brock man 的 文章, 它 其 90% 的 时间 都 在写 代码 这个 事情。 我 觉得 不 只是 说 他 喜欢 写 代码, 或者说 代码 写 得 好。 而是 说 在 这种 很多 事情 都 不确定 的 时候, 组织 里面 有一个 非常 有 话语权, 并且 又 非常 hand zone, 知道 每一个 环节 具体 在 做 什么的 人是 很 重要 的。

因为 很多 时候 当 一个 这样的 公司 市值 几百 亿美金 了, 然后 组织 大 了, 可能 它 就 变成 了 一个 C T O 或者说 是什么 这样 一个 角色, 那 就会 远离 一线。 但是 那种 情况下, 往往 是 如果 你的 业务 已经 比较清楚 了, 大家 该 干嘛 是 比较清楚。 但 现在 很多 时候 还是 在 一个 学习 研究 探索 的 阶段。 这个 时候 一个人 会 的 东西 牵涉到 的 领域 多, 牵涉到 的 团队 多, 其实 是 很 有 帮助 的。

所以 这 其实 都是 叫做 说 运气 也好, 或者说 是 有意 设定 也好, 其实 还是 挺 厉害 的 一些 设定 的。 但是 未必 中国 的 也是 要 一模一样 的 搭配, 对 吧? 比如说 有 技术 背景 人 当 C E O 的, 也有 老王 这种 商业 业务 背景 人 当 C E O 的, 我 觉得 都有。 我们 只能 说 创业 它 永远 无法 是一个 完美的 一副 牌, 或者说 哪怕 你 有 看上去 完美的 一副 牌, 你 也会 被 它 打的 完美。 所以 我 觉得 还是 你 有什么 牌 然后 去 把 它 打好。

你 还有什么 要 补充 的 吗?

首先 我 觉得 A I 这 一波 跟 之前 的 元 宇宙 也好, web 3也好, 这种 大家 觉得很有 泡沫 的 浪潮, 我 觉得 还有 一些 不太 一样的 地方。 首先 任何 科技进步 都有 很多 泡沫, 这个 是 肯定 的。 没有 泡沫 的 地方 也 不会 有 啤酒。 但是 我 觉得 判断 一个 事情 是不是 只有 泡沫, 或者说 泡沫 占 大多数 呢? 就要 看 它 是不是真的 为 主流 的 普通 的 用户 提供了 很 直接 的 价值。 是不是真的 是我 因为 要 用 这个 技术 所以 我 去 用, 还是 说 我 能够 赚钱, 或者说 我 听说 别人 说 未来 很 有用, 还是 现在 立刻 就 有用。

从 这点 来讲, 我 觉得 现在 我们 看到 大 语言 模型 为 代表 的, 包括 说 生成式 的 A I 不管 是 文字 还是 图片, 是 真真正正 对 普通 的 主流 用户 群体 实在 产生 价值 门槛 也 比较 低。 不管 是从 成本 还是 使用 的 难度 来讲, 都 比较 低 的 一种 技术。 比起 之前 的 一些 被 炒 的 很 热 的, 但是 实际 应用 场景 比较 缺乏, 用 起来 也 比较 难 用 的 技术 来讲, 我 觉得 还是 有 很大 的 区别 的。 所以 我 首先 认为 它是 一个 虽然 也是 有 很多 泡沫, 很多 喧嚣 在 里面, 但是 我 觉得 会有 很多 啤酒 的 一个 领域。

我 觉得 可能 是 我们 人类 面临 的 最大 的 一次 技术革命。 因为 最 本质 的 一点 是 说, 原来 我们 所有的 技术 其实 都在 改进 我们 使用 的 工具。 而 这次 是 第一次 用 工具 的这 一边 其实 发生 了 变化, 并且 这个 变化 可能 是 比 我们 要 更 强大 的 一个 存在。

这个 其实我 觉得 会 在 社会学、 心理学 等 各个方面 产生 很重 大大的 影响。 因为 它是 发生 在 数字世界 的。 我们 过去 几十年 甚至 上百年, 我们 往往 在 不断 的 嘀咕 数字世界 的 变化 速度, 而 高估 物理 世界 的 变化 速度。 比如说 我们 原来 觉得 有 终结者 terminator, 结果 现在 我们的 A I 可能 已经 快 到 那个 程度 了, 但是 机器人 还差 很远。 数字世界 的 迭代 是 快 的, 成本 下降 是 快 的。 现在 我们 看到 的 很多 像 auto o GPT 这样的 雏形, 可能 三五年 之后 就会 变得 完全 不一样, 会 完善 成熟 很多 多。 所以 在 这个 过程中, 我 觉得 要 保持 开放 心态。

然后 很 重要 一点 是在 一个 技术革命 的 早期 去 预测 未来, 基本上都 是 错的。 所以 现在 不管 是我 也好 还是 谁 也好, 我 觉得 讲 了 很多 话, 我 觉得 你可以 认为 第一 都是 错的。 第二 它的 实现 的 路径 和 结果 可能 都 完全 不一样。 因为 试想 2010年 的 时候, 移动 互联网 那个 时候 其实 已经 开始了。 然后 移动 互联网 跟 互联网 相比 其实 也 差 不太 多。 但 如果你在 2010年, 你 预测 2023年 的 移动 互联网 赢家, 你会不会 想到 自己? 想不到 快手、 小红 书、 拼 多多、 美团、 滴滴、 uber, 我 觉得 是 很难 的。 如果 移动 互联网 都 这么 难, 那 A I 我 觉得 就 更难。 就 有人说 大 模型 会 吞噬 掉 应用 的 空间, 也许 有人说 开源 的 会 战胜 闭源 的, 或者 怎么样。

我 觉得 我们 一定要 记住, 这是 一个个 大部分 人 就 只 接触 了 几个 月 的 技术, 所以 这个 时候 的 很多 预计, 我 觉得 看看 他的 到底是什么, 但 不用 特别 在意 它的 精确度, 因为 这个 时候 开始 去做, 尤其是 对于 年轻人 来讲, 早点 去 投身 其中, 去 尝试, 去 探索, 其实 是 改变命运 最好的 方式。 因为我 在 过去 几年 经常 听 人 说 80后很 幸运, 对 吧? 像 我们 80后赶上 了 互联网, 所以 怎么样。 但 我 觉得 以后 20年 之后, 大家 会说 00后很 幸运, 因为 赶上 了 A G I 的 Spark 诞生 的 时候。 在 这个 时候 我们 因为 是 做 天使投资, 而且 我们 相信 当 技术 比较 成熟 的 时候, 有利于 连续 创业者 这些 老司机 们。 但是 技术 比较 新的 时候, 是 有益于 年轻人 这些 小天才 们。 这些 年轻人, 他们 一般 都是 年轻 有 冲劲, 对 这个 技术 很 早就 喜欢, 很 早就 感兴趣, 自己 用了 很多, 并且 具备 很 好的 执行 能力 和 国际化 视野 的 年轻人。 所以 我们 也是 非常 希望能够 多多 寻找 在 A I 这个 领域, 不管 你是 要 做 比较 底层 的 模型, 或者 中间层, 或者 是 做 应用, 我们 都 希望 跟 大家 多多 交流, 多多 合作。

好的, 谢谢 宇森。

好的, 谢谢。

这就是 我们 今天 的 节目。 如果 大家 喜欢 我们的 节目, 或者 大家 对 大 模型 有 什么样 的 想法, 可以在 我们的 评论 区 留言 给 我们。 中国 的 听众 可以 通过 苹果 播客、 小宇宙、 喜马拉雅、 蜻蜓 F M、 荔枝 F M、 网易 语音 音乐、 QQ 音乐 来 关注 我们。 海外 的 听众 可以 通过 apple podcast、 google podcast、 spotify 还有 amazon music 来 收听 我们。 感谢 大家 的 收听, 谢谢。