之前 还 听到 一个 八卦, 欧文 还在 去 中东 融资 的 时候, 也 或多或少 就是 展示 了 sora 可能 体现 出来 的 一些 能力。 而 不是 还有 一句 很 有名 的话, 什么 A 7I意识 actually eternally。 确实 我 觉得 在 这 里面 我们 要 避免 一个 陷阱, 就是 在 技术 还 不够 好的 时候 过分 雕花。 在 现有 的 范式 下 AI 应用, 它 可能 应用 出现 有用的 时间点 会 比 移动 互联网 要 慢。 但是 当 它 一旦 变得 有用 之后, 它的 扩散 速度 可能 会 远 快 于 移动 互联网。
你 把 你 现在 年富力强 的 时候 的 思路 交给 未来 的 一个 A I 的话, 那 其实 你 一定 成功 的 获得 一个 数字 的 一个 永生。 所以 这是我 给 人类 的 一个 非常 可操作性 的 一个 小 建议。
Hello, 大家好, 欢迎 收听 张小 珺 商业 访谈录, 我是 腾讯 新闻 的 小俊。 这是 一档 描摹 我们 时代 的 商业 文化 和 心知 的 访谈 节目。 今天 的 嘉宾 是 真格 基金 的 戴雨森 和 记忆 超。 我们 从 开年 A I 界 两件 大事 开始 聊起, OpenAI 发布 sora 和 google 推出 开源 模型 斋马。 作为 投资人 和 创业者, 他们 尽 最大 可能 地 收集 了 来自 各方 的 声音, 试图 搞清楚 sora 在 人才、 算 力 和 数据 等 各个方面 究竟 是 如何 实现 的。 这 一期 也是 关于 sora 的 一个 信息 拼图, 同时 宇森 也是 月之暗面 和 之前 光年之外 的 天使投资 人。 所以 我们 也 聊 了 聊 国内 的 大 模型 生态 及 进展。
关于 中美 大 模型, 在 过去 几个 月 里 我 访谈 了 杨 直 霖、 李广 密、 朱 啸虎。 你 会 发现 我们 对 每一个人 提出了 一些 相似 的 问题, 但 从中 都 得出 了 很多 截然不同 的 答案。 这 正是 大 模型 今天 发展中 有意思 的 地方。 我 接下来 会 持续的 关注 通用 人工智能, 欢迎 大家 订阅 我。 如果 大家 有 更多 想要 讨论 的 话题, 也可以 在 评论 区 告诉我。 Hello 宇森, hello pick. 还是 先 跟 听众 朋友们 做 一个 简单 的 自我介绍。
我 叫 戴 宇森, 是 真格 基金 的 管理 合伙人。 这个 基金 是 一家 专门 做 天使投资 的 基金, 我们 做了 十几年, 在 中国 以及 全世界 投 了 上 千个 天使投资 的 项目。 我 之前 是 创 过 业, 是 居民 优品 的 联合 创始人。 在 AI 这 一波 大 浪潮 开始 之后, 我自己 是 全身心 的 投入到 对 A I 的 学习 研究 和 投资 上, 所以 在 A I 领域 我们 去年 也是 投 了 十多个 项目, 其中 既 包括 像 月之暗面、 光年之外 这样的 模型 公司, 也 包括 像 无问 芯 穹 这样的 中间层 inflame 公司, 还有 一系列 的 在 各个领域 的 A I 应用。 所以 我们 对于 这次 索尔 的 发布 以及 A I 领域 的 很多 新的 进展, 我们 也 感到 非常 的 兴奋, 很高兴 跟 大家 去 交流 分享。
大家好, 我 叫 季 超, 也可以 叫我 pick。 我 现在 是 真格 基金 的 E R 创业 的 时候 也是 真格的 倍投 一直 就是 做 L P 方面 的 工作, 包括 比如说 知识 图谱、 信 检索、 智能 搜索 之类 的。 而 现在 也 做大 语言 模型, 特别是 检索, 增强 了 大 语言 模型 方面 的 工作。 平时 会 跟 宇森 一块 看一看 这 A I 方面 的 新的 进展, 以及 一些 业内 的 动态。 很高兴 认识 大家。
从 过年 期间 到 现在, 其实 A I 行业 发生 了 两件 大事儿。 一个 是 OpenAI 发布 了 sora, 一个 是 google 推出 它的 开源 模型。 我们 先来 聊聊 你们 过去 一周 多 的 整个 的 状态, 包括 情绪 的 变化, 也 包括 你们 都 做了 哪些 事情。
在 索尔 发 的 那个 晚上, 我记得 很 清楚, 因为他 是在 北京时间 大概 凌晨两点 钟 的 时候 发出 来 的。 当时 本来 要 睡 了, 突然 看到 twitter 上 刷 出来 OpenAI 的这 条 twitter。 你 当时 在哪儿? 我 当时 在 泰国, 然后 当时 本来 还在 度假 的 这个 状态, 突然 感觉到 这 要 变天 了。
说到 这个 sorry 的 发布, 我 觉得 跟 ChatGPT 当时 还 稍微 有点 不太 一样。 因为 在 ChatGPT 发布 的 时候, 大家 其实 对于 大 模型 能够 做 这么 好的 对话 聊天, 有 这种 长 context 这样的 功能 其实 没有 预期 的。 所以 当时 是 觉得 居然 这样 也 行。 但是 骚扰 发布 的 时候, 其实 大家 或多或少 都 知道 今年 的 多 模态 的 模型, 视频 生成 的 模型 肯定 会有 大 的 进步。 从 之前 的 很多 业内 的 进展, 包括 大家 努力 的 方向。 但是 大家 确实 没想到, 在 这个 年 还没 过完 的 时候, 就会 看到 sora 这样 一个 效果 这么好, 而不 这么 早 的 模型 的 发布, 所以 当时 我 正好 也 看到, 今天 来 1.5 也 发 了, 所以 真的 感觉到 那个 晚上 好多 新的 信息, 所以 那天晚上 五点钟 才 睡 的。
我 当时 看 了 sora 之后, 第一 反应 也是 在 朋友圈 发 朋友圈 说 这个 确实 超 预期, 所以 也就 开始 不停 的 约 我们 投 了 这个 公司, 我们 认识 的 各种 技术 专家 去 聊 去 沟通 这些 事情。 所以 在 过去 一 多星期 也 跟 十几 拨 人都 都 聊过 这个 话题, 确实 觉得 还是 有 很多 的 收获。 当然 也有 很多 的 不良 了解 还没有 去 搞清楚 的 地方。
对, 说 的 当时 发布 队 也 在 晚上, 我 可能 最先 关注 就是 想 了解 尽量 多 的 技术细节。 当然 大家 也 知道 现在 的 open I 跟 以前 已经 不一样 了。 我们 现在 sora 所 真正 能 看到 的 官方 信息, 除了 几个 twitter 以外, 就 更多 也就是 那一个 take point。 所以 我第一 时间 就 找 的 尽量 认识 的 靠谱 的 人, 做 相关 领域 的 人 去 多 交流, 去 学习 一下。 所以 接下来 我们 可以 分享 一些, 可能 也 更多 都是 我们的 猜测。 而 真正 让 我 觉得 震撼 的 点, 还是 就 sora 这个 东西 比 我 想象 中 到 的 要 早 特别 多。 这个 其实 给我 最大 的 一个 震撼, 而 跟 ChatGPT 那会儿 我的 心态 当然 就 会有 比较 大 的 区别, 因为我 毕竟 以前 是 做 L P 的, ChatGPT 穿 那一瞬间 我 就 意识到 要 变天 了。 但是 sora 出来 之后, 可能 更多 是一种 看戏 的 心态, 所以 会好 一些, 可以 更 纯粹 的 从 技术 角度 来 考虑 一些 事情。
也有 投资人 就说 他们 对 骚扰 的 反应 是 第一天 觉得 太 惊艳 了。 后来 发现 原来 也就 这样, 什么 世界 模型 是 假的, 然后 就 变成 了 一个 比较 现实 的 状态 了。 你们 有 类似的 情绪 变化 吗?
我 觉得 情绪 倒 没有 像 大家 想 的 那么 高, 因为 当时 我记得 在 群 里 很多人 讨论 说, 明天 那 几个 自媒体 的 标题 可能 就会 变得 非常 的 夸张。 我 当时 的 第一 反应 就是说 这 肯定 是一个 我们 预料之中 肯定 会 发生 的 突破。 只是 他 发现 比较 早, 稍微 了解 一下 之后 发现 其实 它 并没有 在 模型 的 底层 的 结构 上 有 翻天覆地 的 变化, 所以 当时 发 了 第一条 朋友圈。 第一 说明 一个 我们 已知 的 模型 结构 是 可以 干 出来 骚扰 的。 但 第二 也 体现 出来, 不管 是从 数据, 从 数 案例, 从 工程 的 技巧 来讲, 确实 open a 还是 走 的 非常 的 靠 前。 所以 大家 对 它的 这个 时间 可能 都 高估 了。 他 要 训 出来 的 时间 所以 我 觉得 倒 没有 太多 的 这种 情绪 起伏, 是 确实 还是 觉得 很 佩服。
从 一开始 的话, 其实 我们的 情绪 也没有 特别 大 的 波动。 我 觉得 主要 的 原因 是 这样, 就是 因为 我们 现在 能 看见 sorry 给出 的 demo, 其实 除了 餐厅 官方 页面 上 给 的 以外, 更多 也都 是从 OpenAI 的 人 直接 就 是从 网友 给 的 prom 去 给 我们 返回 回来的。 这 过程中 其实我也不知道 他 到底 经历 了 多少 picking, 而 真正 让 我们 能 信服 的 还是 得 亲自 去 试用 一下。 所以 我 觉得 在 真正 我 去 用到 所有 这个 产品 之前, 我的 情绪 可能 都会 一直 是 比较稳定 的。 但 如果你 现在 真的 给我 一个 所有的 页面, 我真的 试 了 几个 pump 之后, 我 可能 也会 控制 不住 自己。
而且 我们 聊 下来, 大家 对于 sa 的 模型 size 的 估计, 对他 训练 所 需要 算 力 的 估计, 以及 模型 结构 的 分析。 就让 我们 看到 的 这个 事情 还是 在 大家 的 理解 和 可 去 追赶 范围内 的。 它 不是 一个 让 大家 觉得 开天辟地, 原来 都 没想到 的 东西。 反倒 是 觉得 机会 很多, 不管 是 我们 投 的 像 月 之 爱 面 这样的 模型 公司 的 机会, 以及 包括 说 基于 soa 这样 强力 的 模型, 它 可能 做 的 应用 的 机会 其实 也会 变得 很多。 因为 在 之前 大家 其实 都想 用 纹身 视频 或者 这样的 方法 去做 很多 应用。 但是 原来的 模型 质量 是 完全 是 很难 真正 的 开始 启动 的。 所以 现在 我们 终于 有了 一个 可能, 像 大家 说 GPT3 水平 的 这样 一个 sora, 所以 我 觉得 这会 意味着 多态 生成 的 一个 爆发式 的 时刻 的 来临。
刚才 也 提到 你们 聊 了 非常 多 的 人 在 尽可能 的 还原 sorry 怎么 做出来 的那 我们 对于 sora 究竟 是 怎么 build 出来 的, 我们 来做 一些 拆解 和 这种 信息 的 拼图。 比如说 现在 您 说 对于 sara 这样的 复杂 系统, 人才 第一, 数据 第二, 算 力 第三。 那 我们 能不能 先来 聊聊 sara 背后的人, 基于 你们 现在 的 已知 信息, 他 背后 是 一群 什么样 的 人?
首先 他是 一个 不 那么 大 的 团队。 从 整个 比如说 我们 看到 有的 拆解 说 从 核心 团队 就是 十几个 人, 对 吧? 其实 tim 和 bill 其实 都是 伯克利 的 师兄弟。 当时 bill 去 的 时候 也就是 他他 就是 是 95后, tim 包括 下面 的 比较 多 的 人, 其实 都是 达利 three 这个 团队 的, 这个 其实 也是 比较 一脉相承, 从 达里 three 到 这个 sora 都是 就 属于 做 多 模态 的 生成 的 模型。 并且 我看 在 整个 这 里面, 比如 像 reception 这些 technique 也都 是在 大理 三 里面 先 去 用到 的, 所以 我 觉得 这 反映 的 open I 一直以来 团队 很 精干, 但是 都 非常 的 前沿, 也 非常 的 年轻 这样 一个 特点。
说到 这个人 的话, 其实 当时 bill 在 meta 是 三年 的 实习生。 当时 meta 正好 是要 全力 去 应对 大元 模型 ChatGPT 带来 的 威胁 的 时候, 所以 其实 D I T 这个 工作 当时 并没有 得到 那么 多 的 资源, 属于 一个 真的 是 出于 兴趣爱好 和 出于 对 这个 技术 方向 好奇 去做 的 一个 项目。 边缘 项目 不一定 叫 边缘 项目, 那 至少 资源 不多。 所以 我 觉得 这 又 充分说明 一点很多 时候 对于 研究员 来讲, 其实 对于 技术 方向 的 这种 直觉 上 的 审美, 这种 对 未来 的 大方向 的 判断。 其实 很多 时候 比如说 去 复制 别人 的 方向 其实 要 更 重要。
其实我 也 在 想 所有 训练 所 需要 的 算 力, 比如说 现在 大家 聊 下来 可能 就是 在 比如说 千卡 2000卡就是 S 100的这 这个 水平。 就 这个 算 力 本身 并 不是说 是 遥不可及 的那 数据量 肯定 大家 目前 就 估计 可能 会有 比较 大 的 一个 提升, 但是 这个 可能 也是 可 做到 的, 但 关键 是 说 愿意 给 年轻人, 给 年轻 的 团队 快速 试错, 以 一个 比较 创新 的 思路 去 进行 scale up。 我 觉得 这个 其实 是 反映 了 一种 很 好的 组织文化。 您 之前 有过 一个 分享 说 要把 一个 就 比如 video generation 是一个 大家 都 知道 很 重要 的 方向, 但是 你 要把 这 方向 做好 的话, 你 需要 有 在技术上 的 基建, 对 吧? 像 这个 数据 算 力 训练 的 这些 工程 上 的 能力 的 体现。 同时 需要 有 人才 的 基建, 比如说 对于 人才 的 密度, 对于 从 下 往 上 的 底层 创新 的 包容, 以及 创新 发现 了 一些 突破 之后, 能够 果断 的 去 scare up 的 判断力。 这些 其实 是我 觉得 OpenAI 现在看来 确实 还是 蛮 领先 的 地方。
具体 他们是 怎么做 的 呢? 怎么 搭建 这个 组织, 怎么 借 由 从 顶层 到 下层 的 目标 去 驱动, 同时 又有 从 底层 向上 面对 创新 的 包容。
我 觉得 这 很多 也是 来自于 各种 的 揣测 和 打听。 但 我 觉得 有 几点 可能 明显 还是 不一样的。 第一, open I 整个 组织, 我 觉得 对于 A G I 这件 事情 是 非常 信仰 的, 甚至 有人说 他 有点 像是 个 邪教。 你 要 进 到 这个 组织, 他 认同 你 要 互相 认同。 对于 斯卡 雷洛 有可能 走向 A G I, 以及 对 要 实现 这个 共同 的 愿景 是 非常 笃定 的。 我 觉得 这 是一个 能够 吸引 优秀人才 非常重要 的 原因。
第二个 是 这个 是我 还没有 去 得到 更多 的 confirmation。 是 有人说 其实 在 open a 内部 做 的 视频 的 模型 的 人 也 可能 不止 一个 团队, 可能 也是 有 几支 团队 都在 做 类似的 探索。 但 可能 在 这个 过程中, 可能 是 说 了也 是一个 探索 突破 之后 来 继续 scare up 的 这样 一个 过程。 这 里面 其实 可 体现 出来 组织 的 很多 灵活性, 特别 细节 的 如何 去 工作。 这些 我 觉得 可能 我们 听到 的 也都 是 一些 揣测, 不是 那么 确切 的 内容。
我 觉得 那个 sora 直接 背后 这些 人 就是 雨森。 刚才 讲 的 很 全面 了。 其实我 想 提 一下, 就 我们 当时 看见 这 之后, 很快 我们 就 想到 去 跟 李军 去 聊 去。 他是 之前 video power 的 这个 作者。 就 是从 人的 层面 来说, 你可以 理解 sora 是 一群 之前 做 diffusion 这条 路线 的 人 在 做, 而 以 video poo y 为 代表, 其实 还有 另外 别的 路线, 比如说 像 auto aggressive 这个 路线。 所以 我 觉得 从 这个 人的 角度 来说, 我们 虽然 现在 看见 索尔 有 很大 的 一个 成功, 但 它 到底 是不是 最终 这个 方案, 我们是 无法 确定 的。
所以 我 觉得 很 重要 的 一点, 就 世界上 还有 不同 的 这些 研究者 或者 从业者, 他们 在 尝试 不同 的 方向。 因为我 觉得 这个 科研 的 探索 就 有点像 训练 模型 本身。 我们 也许 看见了 现在 sora 只是 一个 局部 最优, 那 可能 别的 模型 在 灵活性 或者 泛 用 性 可能 展现出 更好 的 特性。 所以 我 觉得 也就 非常 希望 能 看见 更多 的 人才 在 不同 的 方向 去 展开 新的 这样的 探索。 而 不是 所有人 现在 都 一口气 的 都 走向 了 复现 所有 A 这 一条 路上。
从 投资人 角度, 我们 可能 去 研究 怎么 去 做出来。 可能 这 不是 我们 擅长 的 地方, 或者 不是 我们 能 给我 带来 生产力 的。 其实 我们 更多 的 还是 去 思考, 为什么 我们 才能够 让 一个 95后bill 能够 刚刚 去做 这个 事情。 这 体现 的 还是 一个 年轻 组织 它的 活力, 以及 说 组织 的 负责人 对于 技术 真正 能够 最前沿 的 技术 能够 非常 了解。 不是说 因为 按资排辈, 或者说 是因为 去做 管理 的 职责, 所以 这个 其实 是 让 我 觉得 对于 年轻 的 创业 公司 更 具备 信心。 因为我 觉得 在 这个 时候, 其实 可能 全世界 最 优秀 的 年轻人 能够 把 这件 事情 往前 推进。 因为 它 不是 个 靠 经验 的 地方。 在 这个 时候 可能。
你们 过去 一年 肯定 follow A I 的 研究员, follow 很多。 你们 对于 这个 方向 的 人才 画像 有什么 观察 吗? 以及 人才 地图 哪些 学校 哪些 高校 能够 出来 这样的 A I 的 天才 型 的 选手 比较 多。
海外 就是 A I 比如 北美 A I 四大 名校 就是 斯坦福、 伯克利、 M I T C M U. 然后 在 加拿大 比如说 像 多伦多、 滑铁卢。 在 中国 当然 比如说 清华、 上海 加 了 A C M 班, 中科大 其实 也有 很 相关 的 人才。 我 觉得 学校 著名 的 实验室, 著名 的 教授, 其实 我们 都 做了 很多 的 这样的 mapping 的 工作, 包括 香港 港 科、 大港 中文 这样 在 这个 过程中 的话, 实际上 我们 觉得 这个 师承 关系 还是 挺 明显 的那 从 比如说 OpenAI 的 这个 创始人 伊利亚 他们的 一脉 的 师承, 你 就 包括 像 team 和 bill 也都 是 同样 的 时辰。 A I 这个 领域 因为 它 确实 需要 顶级 的 治理, 所以 我们 观察 到 在 名校 这 里面 脱颖而出。 比如说 像 我们 投 志玲, 其实 也 是因为 我们 很 早就 关注 到 志 平在 清华 的 这个 同届 的 同学 中, 应该 也是 非常 早 的 脱颖而出, 非常 成为 学神。
这 里面 其实 应该说 领军人物 他 偶然性 倒 不高, 更多 的 还是 出自于 这些 最 优秀 的 学校, 最 优秀 的 实验室, 最 优秀 的 team。 但是 我 觉得 这 里面 不能 只 局限于 技术, 尤其 是从 创业者 的 角度。 对于 商业、 对于 组织、 对于 产品, 是不是 愿意 去 在 这方面 去 学习, 去 进化, 我 觉得 是 很 重要 的。 其实 这些 组织 产品 商业 我 觉得 并 不难。 因为 我们 以前 跟 很多 学者型 创业者 打交道, 往往 遇到 问题是 他们 觉得 这个 事儿 他们 不愿意 去 学习。 有的人 觉得 他们 有意思, 有的 人是 觉得 这些 事情 不重要, 觉得 自己 技术 好 就行。
实际上 我 认为 对于 厉害 的 研究员 来 讲学, 这些 是 不难 的。 因为 显然 有 很多 研究员 可以 成为 很 好的 企业家, 但是 好像 很少 有 企业家 去 能 做 研究员 的。 是 它是 一个 不 可逆过程。 但是 很多 时候 我 觉得 是 有人 不愿意 去 学, 所以 我 觉得 如果 是 好的 技术 加上 愿意 去 全面提高 自己 各方面, 成为 更好 的 企业家 了。 这 有 这样的 想法 的话, 那 这种 创业者 是 我们 最 喜欢 去 投资 的。
所以 你们 做了 那个 人才 的 mapping 大概是 一个 什么样 的 图?
好的 学校 全部 拎 出来。 好的 学校 下面 有 哪些 实验室? 实验室 比较 具体 知名 的 导师, 以及 这 里面 可能 我们 关注 华人 比较 多 对 吧? 这 里面 优秀 的 华人 的 这些 P H D 有 哪些? 然后 其实 我们会 做 一些 交叉 的 reference, 就 比如说 大家 觉得 谁 最好, 就是说 的 P I G 里面 可能 有些 是 最好的, 那 我们 就 也会 很 关注 这 里面 谁 是 被 提到 最多 的那 几个人, 所以 我们 尽量 能够 说 找 出来 神 中 之 神, 对 吧? 因为 每个 去 可能 这些 名校 的 P I 基地 都是 挺 厉害 的, 但 这边 可能 有 大家 更加 佩服 的 一些 人。 石林 其实 就是 属于 在 中国 的 这些 学生 里面, 大家 又 都 非常 佩服 他, 所以 这种 也是 属于 一个 优 中选优 的 过程。
得出 什么 结论 呢? 比如说 会不会 斯坦福 更 适合 出 比如 这样 方向 的 企业家, 而 C M U 更 适合 出 C O 有 这种。
类似的 结论, 有一个 非常 有意思 的真 事儿, 因为我 当时 是 斯坦福 这个 创业 组织 的 发起人 之一, 斯坦福 的 创业 组织 叫 C E O C M U, 也有 一个 中国 学生 创业 组织 叫 C T O 但 石林 是 C M U 的。 我的 意思 是 说, 其实 每个 学校 肯定 有 一些 自己的 风格 了。 比如 斯坦福 在 硅谷 他 很多人都 想 创业。 但 我 觉得 现在 这个 时候, 其实 顶级 的 A I 人才 或多或少 都 会有 一个 去做 点 什么东西 的 一个梦想, 当然 有的人 来 选择 作为 C E O 或者 作为 联合 创始人 这些 创业, 有的人 会 愿意 加入 创业 公司, 其实 我一直在 想 在 这个 时候 有 能够 充足 的 资源 以及 形式 的 自由, 或者 对于 顶级 A I 的 这些 学者 非常重要 的。 因为 对于 他们 来讲, 很多 时候 其实 也 并不是 在于 说 直接 拿 多少 这个 package, 更 多是 说 能不能 去 探索, 去 做自己 想做 的 事情。
最近 有没有 观察 到 一些 有意思 的 人才流动, 比如说 谢 赛宁 他 回到 了 学术界, 比如说 OpenAI 的 重要 的 创始 成员 之一 离开了 OpenAI 等等。 这些 人才 变动 你们 关注 的 有 哪些, 以及 他们 背后 反映 了 什么?
在 去年 有一个 说法, 就是说 学术界 在 A I 现在没有 优势 了。 因为 学术界 没有 足够 多 的卡, 工业 就有 很多 卡。 但是 我 觉得 其实 你看 赛琳 当时 带着 bill 做了 这个 研究, 成为 sorry 的 backbone。 其实 这 里面 反映 就是 双方 的 分工 不一样, 对 吧?
学术界 其实 这种 真的 做 研究, 对于 感兴趣 的 话题, 对于 好玩的 事情 去做 研究 的 这种 思考 方式, 其实 是 有助于 发现 很多 很 有 潜力 的 种子 的那 这些 种子 可能 要在 一个 能够 大力出奇迹 的, 能够 去 动用 足够 多 资源 的 地方 被 慧眼 识别, 去 生根 发芽, 对 吧? 但是 这 两个 过程 其实 是 比较 有 差异化 的。 当时 跟 赛 灵 聊, 其实我 也 问 了 他 这个 问题。 当然 何海 明 是从 meta 去 到 M I T, 那 赛 灵 是从 meta 去 到 Y U 去做 研究。 他 其实 他 就是 觉得 他 自己 更 喜欢 做 学术 这个 事情, 更 喜欢 去做 这种 看上去 好像 直接 这 东西 有什么用, 并不是 那么 直截了当 能够 看到。 但是 可能 这个 种子 埋下去 之后, 会长 出 一个 骚扰 这样 大树 的 这种 很 有意思 研究, 我 觉得 这是 不同 的 生活方式, 对 吧? 但是 我们会 明显 的 觉得, 就 所谓 的 大厂, 如果 在 自己的 组织结构 上 不 变得 更加 敏捷。 AI 项目 的 负责人 自己 不是 真正 对 AI 非常 懂, 能够 在 一线 的 前沿 的 知识 非常 懂得 负责人 的话, 那 可能 他们的 人员 流失 其实 还是 比较 明显 的。
第一, 现在 好的 A I 创业 公司, 其实 从 很多 资源 上 也 并不是 那么 缺。 并且 很多 时候 大厂 的 很多 优势 其实 没法 发挥出来。 上次 听 google 的 人 讲 过 一个 现实, 就是 如果你在 google 你 要 拿 youtube 的 数据 去 训练, 其实 是 非常 难, 或者说 是 不可能 的。 因为 youtube 这个 部门 他 会 觉得 你 拿 我的 视频 去 训练 生成 模型, 那是 直接影响 我的 利益。 并且 这 里面 有 很多 的 几乎 协议, 让 你 不 能够 把 他的 视频 拿去 训练。 所以 可能 全世界 的 人都 在 8 youtube 上 的 视频 训练, 但 就是 在 google 里 反而 最难 用 youtube 去 训练。 这就是 大厂 带来 的 隔阂。 所以 因为 之前 也 有人说, 你看 那 大厂 有钱, 有人 有 卡 又有 数据, 那 他 岂不是 就 碾压, 对 吧? 但 我们 恰恰 发现 现在 进展 最快 的 好像 都 是在 的。 但是 并 不是说 他们 都有 这种 合规 优势, 这 只是 用 一 环。 但是 很多 时候 对于 人才 的 发掘 使用, 包括 像 这些 做法 上, 是不是 能够 足够 灵活 的 往前 推进, 其实 可能 都是 有 区别 的。
但是 在 您 为什么 要在 这个 时间 节点 选择 回 学校 呢?
他 其实 也是 去年 那时候 回去 的, 他 讲 了 一些 原因, 但是 出于 因为 我们是 一个 朋友之间 的 闲聊, 所以 可能 也 不太 方便 讲。 但 我 就 觉得 他是 真的 想做 学术 这件 事情, 这个 是我的 理解。 并不是 每个 人都 是 希望 要 去 build 这个 产品, 或者说 是在 一个 比较 更 明确 的 目标 下去 把 它 做 个 产品 做出来。 我 觉得 对 3029 可能 研究 工作 这种 探索 的 乐趣 是 更加 有意思 的。 但是 他们 现在 也 在 探索 新的 研究 方向。
这个 是 企业 到 学术界 的 这种 转换。 企业 和 企业 之间, 比如说 open I 那个 重要 的 创始 成员 他 离开了 open I 以及 比如说 蒋 璐 从 google 去了 tiktok。
你说 angle capacity 对 吧?
安全 capacity 其实我 觉得 是 O K I 里面 非常 特别的 一个人。 他 当时 是 去了 特斯拉, 然后 又 回到 OpenAI, 并且 他 经常 无偿 的 给 大家 科普 A I 的 这个 知识。 其实 听说 他 离开 欧 en I 之后 其实 很忙, 因为他 刚 出了 一个 两个 多 小时 的 视频, 专门 给 大家 科普 什么 是 toija。 我 觉得 这个 其实 是 非常 伟大的 举动, 就 因为 对他 来说 时间 很 值钱, 但是 他 却 选择 给 大家 去 铺 到 从 A I 的 从 很 基本 的 东西 开始 讲 起, 我 觉得 这个 是 非常 不容易 的。 当然 这个 可能 也 有人 会说, 是不是 反映 了 open I 里面 的 某些 争执。 我 觉得 当然 我们 也 从 比如说 他的 朋友 那儿 也 听到 过 一些 说法, 但是 我 觉得 有 很多 八卦 也不 适合 去 传播, 但是 可能 也是 会有 一些 个 理念 上 的, 并不一定 是 完全 契合 但 我 觉得 这些 其实 都是 属于 别人 家的 八卦。 因为我 看 网上 有人 就说, 你看 当时 三毛 他们 回来, 谁 点 赞 了, 谁 发帖 了, 谁谁 排 了 队形, 谁 没排, 好像 就是 and capacity 其中 没有 排队 性 的 一个人, 说实话 我 觉得 这个 就是 很 从 八卦 角度 挺好玩, 但是 可能 对 我们 工作 没有 太大 意义, 所以 我们 关注 的 比较 少。
其实 讲 路 去 tiktok, 我 觉得 其实 也是 说明 自己 在 越来越 重视 这件 事情。 因为 我们 也 了解到, 包括 像 移民 真的 对 这件 事情 都 非常 的 重视。 他 自己 会 亲自 跟 这个 P I C D 去 聊, 会 跟 优秀 的 A I 创业者 去 聊, 而且 聊 很长 的 时间 对 吧? 我 觉得 这个 也 反映 了 字节 这个 组织 一名 他们 这样 一个 团队 对于 新事物 的 重视, 以及 说真的 非常 handle。
我 突然 想到 一个 问题, twitter 也是 一个 A I follow 的 一个 重镇, 你们 平时 会 关注 哪些 人? 就是 他们 发 什么 你们 必 看 以及 收获 最多。
的 人我 其实 有一个 A I 的 一个 分类, 然后 里面 有 个 几百人。 因为 思路 也很 简单, 你 就 把 所有的 这些 名牌 上 的 OpenAI, 像 topic、 google、 fair 这些 所有的 好的 researcher 全部 都 关注 一遍 了。 看 他们 关注 的 是 A I 相关 的, 所以 我 觉得 这个 肯定 还是 比较 容易 去做 的。 比如 我 跟 金凡 会 经常 沟通, 因为他 也是 华人, 可能 在 这个 A I 里面 关注 人 数最多 的 K O L, 有 一些 他是 他 这种 信息量 非常 大 的 这种 账号, 对 吧? 但是 他们 同时 也 可能 有 一些, 比如说 对于 某个 具体 的 技术 问题 比较 热心 分享。 比如 赛 灵 他 当时 在 这个 骚扰 出来 之后, 他 写 的 这个 thread 的 分析, 其实 对 很多人 来讲 是 很大 的 帮助。 但是 后来 他 就可以 被 这个 事 困扰, 然后 后来 他 发 了 朋友圈 去 解释 对 吧? 那 我 就 觉得 美国 还是 有 蛮 多 比较 无私 分享 的, 这些 人 给 我们 帮助 是 挺 大 的。
但 确实 这方面 推特 上 的 信息, 第一手 的 信息 其实 比较 多。 包括 在 索尔 发布 前 几个 月, 其实 有一个 很 著名 的 他的 I D 我 还 忘记了, 就是 open I D 里面 的 立刻 账号, 其实 就 预测 了 2月15号 这个 时间。 发布 之前 还 听到 一个 八卦, 我 朋友 在 去 中东 融资 的 时候, 也 或多或少 就是 展示 了 sora 可能 体现 出来 的 一些 能力。 所以 当时 大家 说, 当时 不是 还有 一句 很 有名 的话, 什么 A 7I意识 achieved internally。 然后 就有 一些 当时 对 open I 有 重大 进步 的 揣测, 可能 也就是 在 那个 时候 逐渐 的 有 一些 这样的 信息, 这种 感觉 泄露 出来。
这是 几月?
当时 应该 是 去年, 淘宝 在 中东 做了 一些 物资。 我想 刚刚 举 这个 例子 只是 想 说一说。 因为 我们 现在 看到 sora 其实 已经 是一个 它 可以 拿出来, 并且 它 不只 可以 拿出来 展示 demo, 还 可以 说 你 给我 prop 我 来 生成 对 吧? 所以 他 其实 还是 经过 了 一些 迭代 的, 就 可能 在这里 边 再 比如 可能 在 去年 的 时候 就说 了 这种 纹身 视频 可能 就 出现了 一些 大家 看 得到 的 突破, 那时候 还 没没 那么 稳定, 或者说 还没有 那么 完善, 但是 现在 我相信 他的 进步 速度 应该 也是 挺快 的。 是 为什么。
open I 在 这个 时候 发布 骚扰 呢? 在 时间点 的 选择 上。
对 这个 问题 读 open I 的 心 太难 了。 最简单 的 答案 就是说 因为 它 已经 足够 好了。 第二个 也 有人 是 这么 分析 的, 就是说 因为 今年 上半年 肯定 会有 有 很多 的 新 模型 会 发布 google 的 G 面 来 1.5, 比如说 GPT4.5, 包括 说 其他 的 这样 一些 模型, 那么 在 这个 时候 肯定 先声夺人, 那 可能 也是 一个 策略。 当然 有人说 是不是 一 看到 要 发 G 本来 1.5 了, 所以 我 发 走了。 我 就 我 觉得 倒 不至于, 可能 就 显然 没有 必要 这么 去 抢 这个 时间吧。 我 觉得 就是说 他 到了 一个 瓜 也 熟 了, 可以 摘 了的 一个 时候。
对我 也 觉得 这 好多 时候 其实 刚好 做 完了。 或者说 说说 他们 有 别的 项目。 可能 到 某 一个 节点, 现在 能 腾出 足够 的 算 力 给 这个 soar 去做 retying, 所以 可能 也没有 那么 多 的 阴谋 在 里头。
过去 一周 你 没有 基本 搞清楚 sorry 是 怎么 实现 的 吗?
我们 只能 说 采样 了 很多 人的 观点, 简单 来说 也就是 这个 模型 的 规模。 比如说 赛季 最 开始 说 可能 三个 B 后来 大家 发现 可能 三个 B 可能 还是 有点 不太 够, 可能 6到10个 币 或者 十个 币 上下。
当然 也 有人 认为 会 更多, 我 这边 或多或少 推理, 也就是说 首先 这个 生成 的 质量 是 这个 样子, 所以 它 不可能 特别 小。 并且 这个 时候 同时 它 比如 从 现在 生成 的 这个 时间 来看, 可能 是因为 有人 去 看。 比如 他 发 了 个 prom 的, 到 最后 这个 视频 出来, 可能 过了 这个 时间 可能 最多 也就 一两个 小时。 那 包括 这边 还有 一些 Cherry picking 的 时间 或者说 挑选 的 时间, 所以 它 生成 的 时间 可能 不会 特别 长, 或 包括 说 在 现在 这个 实验 的 阶段, 他 没有 理由 把 模型 搞得 特别 大。 所以 大家 可能 对模型 的 这个 估计 可能 也就是 在 一个 比如说 十个 B 上下, 这 可能 是 我们 跟 很多人 聊 下来 的 这个 观点, 包括 训练 的 算 力, 大家 可能 觉得 就是 首先 O P I 因为 它 现在已经 部署 的 这个 卡 的 数量 估计 或者 有 信息 是 大概 二十几万 张, 对 吧? 所以 他 可能 是 能 用 更多 的卡 去 进行 这种 实验, 但是 如果 要把 这样 一个 规模 的 模型 去 把 它 训 出来, 可能 比如说 是一个 一两千 张 H 100这样的 规模。 但 显然 就是说 做 实验 和 最后 训 一遍 对 吧, 那 肯定 还 不一样的 概念。 你 做 实验, 你可以 用 更多 的卡 平行 做 更多 的 实验。
对于 数据 其实我 觉得 是 现在 大家 最 关注 的, 因为 显然 在 这 里面, 如果你 模型 size 不是 有 显著 的 提高, 那 一般 就是 在 数据 以及 处理 数据 的 方式 这 上面 可能 会有 一些 很多 进展。 但 这种 的话 我 觉得 就 属于 大家 只能 去 猜测。 比如说 现在 有人 猜 可能 是用 了 三 弟 引擎 的。 因为 大家 看到 里面 的 一些 demo 里面 的 内容 比较 像 三 弟 引擎 生成 的。 但 这也是 揣测。
有些人 开玩笑 说, 上面 有 很多 的 视频 的 风格 比较 像 那个 shader stop。 虽然 里面 的 这种 是 风格, 但 不管 怎么样, 大家 你 这 里面 肯定 要有 对于 内容 优秀 的 素材 的 准备, 以及 说 比如说 他们 用 的 GPT4 做 reception 对 吧? 写 了 很 详细 的 caption 来 增强 它 生成 的 真实度 和 它的 整个 的 效果。 这些 大 的 思路 我 觉得 或多或少 是 逐渐 大家 在 这个 拼图 的。 但是 具体 怎么做, 或者 这 里面 有没有 一些 关键 功耗 是 没有 公布 的。 其实 我 觉得 可能 要 留给 像 指令 他们 这些 更 专业 的 人 去 fig out。 像 我们 只能 说 大家 收集 人们 大概 有一个 大概 的 概念。
这块 我可以 稍微 补充 几个 点。 第一个 现在 比较 确切 的, 我们 比较 相信 的 一个 推测 的 模型 参 数量 大概 在 6B左右, 这块 也都 是 基于 公开 信息。 你看 他 那个 sora take report 里头, 他 有 几个 scaling 的 例子。 他 写 了 比如说 这个 four time compute, sixteen time compute. 然后 这个 其实 如果你 按照 D I T paper 作为 baseline 的话, 它 后来 修正 为 32倍, 那 估计 也 推测 就是 一个 6B组 的 模型。
然后 另外 一点, 其实 也就是 我们在 做 模型 的 时候, 会 在 一开始 你 要 考虑 scale。 比如说 你 现在 有 足够 的 算 力 的 情况下, 你到底 先 scale 模型 的 参 数量 还是 去 先 scale 数据 的 参 数量。 而 现在 从 公开 信息, 还有 大家 的 比如说 我们 采样 得到 信息 来看, 可能 都是 数据 现在 规模 非常 大。 你可以 朴素 理解 成就 是你 有 一定 算 力 之后, 你 要 考虑 就是 数据量 乘以 模型 参 数量。 那 这个 时候 如果你 数据量 非常 大 的话, 其实 一开始 它的 模型 的 规模 可能 也就 不会 一开始 就 做 的 那么 大。 而且 从 实验 的 角度 来说, 你 也 不应该 首先 去掉 模型 的 参 数量。 所以 这个 是 对于 模型 的 规模 的 一个 推测。
另外 如果说 这个 技术细节 的话, 其实 我们 能 找到 的 一切 的 根源 还是 那 一片 type report。 我们 只能 说 它的 技术 架构 上 本身 没有 一个 翻天覆地 的 变化。 但 另一方面, 它的 这个 take part 其实 藏 了 非常 多 的 信息。 比如说 大家 现在 的 关注点 可能 在 scaling, 可能 在 这个 diffusion transformer 上面。 但 实际上 我们 看到 它的 这个 encoder 部分, 它 这个 toga ized, 它的 positionally encoding, 就 这块 它 其实 都 一笔带过 了。 但是 如果你 做 模型, 你 会 知道 就 所有 这些 细节 其实 会 最终 效果 产生 非常 大 的 一个 差异。 所以 现在 我们 所 关注 的 重点 可能 是 较为 清晰 了。 但是 剩下 那些 没有 被 关注 的 点, 反而 可能 是 这个 模型 的 一些 秘密。
他 这次 核心 解决 了 哪些 技术 的 难点, 而 这些 难点 是 之前 不能 解决 的, 就是 那个 技术 瓶颈。
这个 有 几个。 首先 好多 事 我们 不能说 是 之前 解决不了, 但 你 只能 说 sora 首先 解决 了 这个 问题。 比如说 几个 典型 的 例子, 第一个 就是 我们 实打实 的 看到 了 连续 生成 的 一分钟 的 一个 视频。 之前 的话, 比如说 你看 一些 商业 产品 或者 开源 的 模型, 一般来说 一个 视频 基本 也就 3至5 秒左右。 而 这个 sora 的话, 它 能 直接 生成 一个 60秒的 视频。 甚至 这 60秒的 视频 可能 是 有 多个 镜头 组成 的, 所以 时长 是一个 实打实 的 突破。
另外 一点 其实 是 它 有一个 技术细节, 就是 它 在 训练 和 生成 的 过程中, 它 其实 支持 各种各样 的 分辨率。 虽然 之前 有 一篇 paper 叫 patching pack, 它 实现 了 这件 事儿。 但是 我们 发现 sora 把 这个 事儿 scale 到 一定程度 之后, 获得 了 非常 好的 效果。 它 能够 输出 更 适合 你 设备 的 分辨率。 用 那个 paper 上 原话 叫 native resolve。 就 比如说 你 拿 一个 手机, 你 可能 想 看 一个 竖 屏 的 1080乘1920 分辨率 的 视频, 他在 训练 和 推理 上都 做到 了。 所以 这 可能 他 做到 的 第二个 比较 大 的 突破。
剩下 一些 突破 你 可能 很难 去 定量 的 去 描述 它。 但是 我们 其实 人 的话 感性 都能 感觉到。 比如说 他的 consistency, 就是 前后 的 一致性 是 非常 好的。 还有 他 好像 模模糊糊 的 展现出 了 一些 对 世界 和 对 物理 的 了解。 这个 可能 是 比较 大 的 几个 突破。
他 现在 需要 的 这些 模型 规模, 训练 的 算 力 的 规模, 数据量 等等, 是 不 那么 难 达到 的对 吧?
至少 绝对 的 这个 数量级 对于 大厂 们, 甚至 是 融资 比较 多 的 创业 公司 都是 可以 达到 的。
大概 需要 多少钱?
如果 是 几千 张 或者 一两千 张 H 100的话, 其实 这 也就是 几千 万美金 的 投资。 你 去 一次 可能 比如说 千万 美金 的 量级, 就 并没有 那么 遥不可及, 就 不是说 到 10亿美金 才能 做。
所以 sora 是 基本上 所有 头部 的 这些 大 模型 公司 和 大厂 都能 做 的。
在 您 给 了 一个 乐观 的 预期, 说 6到12个月, 我是 觉得 他 有点 乐观。 说实话 为什么 你 觉得 有点 乐观? 因为我 觉得 能 做 真能 做出来, 其实 中 间隔 很多 都 号。 比如 你的 大方向 是 知道 的, 但是 具体 这个 地方 怎么 把 它 调 优, 这个 事情 你不知道, 你就是 要 花 多是。
其实 我们 还记得 去年 当 GPT, 尤其是 GPT4 出来 之后, 很多 公司 就说 我 能够 在 年底 追上 GPT4。 现在 2024年 了, 实际上 真能 拿出 一个 GPT4 水平, 就是 各方面 全面 达到 GPT 数据 水平 的 模型, 可能 也就 google G M I 的 1.5 的 tra 说 能够 达到, 对 吧? 但是 我们 仍然 还没有 用到 一个 实际 的 产品, 就 说明 你 在 aligned 这些 方面 还是 有 很多 要 去做 的。 就是你 从 那个 方向 能 走, 但是 中间 很多 的话 可能 会 在这里 卡住 你 一个月, 那里 卡住 一两个 星期, 所以 就 不一定 能 那么 快。 但 比如说 很多 公司, 比如说 像 Midjourney, 可能 也是 在 年终 研发 视频 模型 这样 他们 本来 也有 一些 计划, 只是 说 可能 索尔 出来 之后, 大家 对 自己的 目标 就得 做 进一步 的 调整。 可能 原来 大家 去 的 模型 没有 到 那么 好的 程度。
其实 sora 解决 的 问题, 我的 理解 其实 就是 之前 大家 在 像 runway, 皮卡 这些 产品 上都 看到 的 问题。 比如说 视频 时间 太短, 动 不 起来 乱动 对 吧? 包括 缺乏 一致性, 一个 东西 经过 了 一个 遮盖 物 之后 就 没了。 这些 问题 大家 都 知道, 大家 可能 原来 变 好了 很多, 但是 索拉 还 变得 这么好, 那 大家 显然 不会 愿意 发布 一个 比索 A 要 差 的 模型, 或者 至少 大家 希望能够 跟 他 能够 旗鼓相当。 所以 这个 会 让 大家 时间 又会 变得 很 不一样。
对我 觉得 可以 补充 一点, 现在 很多人 总 说 别人 可能 需要 一年 左右 的 时间。 集中 推测 的 一个 原因 是因为 我们在 往 回去 看 这个 tim 跟 dell 入 职 或者说 开始 做 这件 事 的 市场。 对 但是 我 觉得 我们 必须 要 清醒 的 意识到, 就是 open a 它的 起点 比 我们 大部分 公司 要 高 很多。 像 刚才 雨森 也 讲 到了, 就是 sora 项目 用了 很多, 比如说 像 达理 and recapturing。 然后 它的 这个 语言 的 conditioning 部分, 也许 就是 用了 GPT 的 权重 去 初始化 的。 所以 就是 OpenAId用 了这 一年。 它 其实 基于 过去 很久 的 这个 积累, 我们 这块 都 不提 它的 那些 算 力 和 infer 方面 的 工作。 对于 我们 别的 公司, 无论 创业 公司 还是 大公司 的话, 其实 你 一开始 我们的 起点 可能 都 比 open I 现在 要 低 一些。 所以 即使 有了 sora 这个 东西 在 这儿, 我们 可能 仍 需要 投入 很 长时间, 你 才能 将将 达到 这样的 一个 效果。 所以 我也是 觉得 一年 这个 事儿 属于 是一个 乐观 且 艰巨 的 一个 目标。
其实我 觉得 像 有的人 就 把 它 总结 为 大力出奇迹。 但 实际上 我 觉得 这 里面, 第一 你 大力 能不能 使 出来。 第二 负责 使 这个 力 的 人, 他 是不是 足够 懂, 他 是不是真的 在 对的 地方 使劲儿, 并 不是说 傻 砸 钱 就可以 了, 你 钱 也要 很 有 技巧 的 砸 才行。 所以 我 觉得 这 里面 可能 钱 反而 不是 这 里面 最 重要 的。
追上 GPT4更 难, 还是 追上 骚扰 更难?
可能 难度 不太 一样。 就 比如说 你 可能 在 骚扰 里面 有 很多 数据 上 的 准备, 你 可能 之前 很多 人是 没有 去做 这方面 的 储备 的。 就 大家 在 这个 文本 语料 上 反而 差距 可能 没 那么 大。 可能 它是 两个 不同 的 问题, 可能 打篮球 和 打乒乓球 哪个 更难? 都 很难, 对 吧?
只是 你 需要 用 不同 的 能力。 国内 大 模型 公司 如果 也要 追赶 的话, 应该 继续 先 追赶 GPD4, 再 追赶 骚扰, 还是 它 两条线 都要 同时 做。
稍微 从 第一性 原理 出发 一点, 就 目前 的 发展 阶段 来看, 其实 做 L O M 跟 做 sora 就是 这种 diffusion 模型 的 人才, 目前 还没有 完全 的 重叠。 就像 比如 我们 之前 做 L P 的, 但 现在 无论 你 愿不愿意, 基本 都 被卷 到了 L M 这个 赛道 上。 但 其实 sera 出来 之后, 其实 以前 做 传统型 C V 的 很多人 其实 也都 找到了 新的 工作 方向。 而 真正 那种 多 模态 的 大一统 的 模型, 其实 目前 还没有 特别 多 的 很 好的 例子。 所以 目前 我 觉得 这 两拨 人是 不太 冲突 的, 是 可以 并行 的, 也 只能 并行。
目前 对, 而且 我 觉得 如果 一直 是要 追赶, 实际上 就是 很 容易 被 牵着鼻子 走。 因为 如果 永远都是 说 出来 一个 去 学习 一个, 那 这种 就 永远 没有 预判。 当然 我 觉得 这 对 公司 要求 很高, 团队 要求 很高。 你 能不能 尝试 去 预判 下一步 会 是什么, 提前 做 一些 准备, 否则 一直 跟着 跑, 其实 是一个 蛮 短期 驱动 的 一个 事情。 所以 这也是 为什么 我们 觉得 如果现在 想做 底层 模型 公司 来讲, 技术 上 的 人 看得远 很 重要。 你 跟着 跑, 那你 永远 跑 不过 比 你 有 更多 直接 资源 的 人。 所以 你 只能 说 我 先 去 他 要 去 的 地方。
关于 sara 是 怎么 实现 的, 还有 更多 补充 吗? 不管 是 算 力 数据 还是 人 各个方面。
现在 我们 刚 十天 的 时间, 假设 再 过 三个月 我们会 知道 更多。 现在 我们 知道 的 都是 很多 碎片 的 拼接。
目前 的话 从 实现 原理 上, 我们 觉得 就是 open I 的那 篇 tech report 是 我们 能 知道 的 所有的 真正 准确 的 信息 推测 来看, 首先 一点 就是 它的 推理 十号 大概 你 生成 一分钟 的 视频, 大家 可能 需要 现实 中的 二 分钟 左右。 这 是一个 目前 比较 确定 的 一个 数据。 除此之外 的话, 我们 真的 是 没有 特别 确切 的 信息。
在 他的 那 篇 report 里面, 你们 有没有 什么 能 给 大家 划 重点 的 信息。
这个 就 太多 了, 他 好多 重点 其实 可能 就 一句话 就 带 过了。 比如说 我们 对于 他 这个 latest space 的 表达 到底 是 怎么做 的, 一句话 就 带 过 了也 不说 他 那些 在 report 里头。 其实 你 就 如果 按 从 上 往 下 看 的话, 你 就可以 把 它 理解 成 先是 teized 进入 这个 division transformer, 然后 还有 这个 encoder 跟 decoder 这 一部分, 每一个 都是 重点, 只不过 它的 这个 重点 其实都没有 详细 的 去 讲。 所以 我们 觉得 checkpoint 一共 就 那么 短 了, 你 就 都 当 重点 看 就行了。
Sora 发布 之后, 它 对于 全球 大 模型 在 今年 的 演变 会有 带来 什么样 的 影响?
我 觉得 首先 是 把 这个 战争 给 推 到了 一个 新的 高度, 我 觉得 一线 公司 都是 知道 多 模态 会有 这样的 突破 的, 只是 说 时间 提前 了。 那 时间 提前 了, 很多 原来的 计划 都 得 变。 并且 我 觉得 一 图 胜 千言, 一个 视频 就 剩 1000张图, 对 吧?
骚扰 发布 之后, 虽然 我们 觉得 它 实际上 这样 用 起来, 其实 实际上 还有 一些 距离。 同时 它 不像 GP7T, G T 是个 交互 模型 对 吧? 因为 ChatGPT 你是 可以 跟 它 交互 获得 更多 内容 的那 现在 它 作为 一个 纯粹 的 生成 模型, 它 其实 生成 之后 继 下一步 做什么, 实际上 现在 还 未知。 因为 它 如此 直观 的 去 呈现 出来 一个 这么 好的 视频。 所以 给 不管 是 这些 创业者 公司、 应用 公司, 还是 像 文娱 影视 行业, 包括 这些 政府部门 带来 冲击 都是 很大 的。 我 觉得 这 也会 引来 更多 对 A I 的 监管 的 担忧。
其实 也 看到 比如说 像 广电 或者 像 这些。 部门 他们 对于 sora 的 出现 是 非常 的 关注, 我们 很快 就 到了 一个 难辨 真假 的 程度。 原来 像 runway 生成 的 视频, 绝大部分 还是 一眼 就 看得出来, 并不是 真实的。 但 sora 第一次 把 这个 视频 生成, 可能 到了 一个 以假乱真 的 程度。 我 觉得 这方面 的 监管, 可能 也会 有 更多 的 动作。 我 觉得 大家 对于 数据 的 关注度 会 进一步 的 提高。 因为 在 这 里面 显然 索尔 并 不是说 算 力 的 绝对 大, 或者说 模型 的 绝对 大。 是在 数据 上, 不管 是 数量质量 处理 上 可能 都有 很多 的 进步。
所以 这方面 可能 大家 的 关注 会 多 很多。 之前 大家 觉得 L M 操作 工具, 好像 实现 agent 这条路 是一个 非常重要 的 路。 多 模态 其实 一般 好像 我记得 在 比如 国内 一些 大厂, 这 里面 其实 它 不是 大家 主要 关注 的 方向。 大家 可能 主要是 做 L 这边 可能 有人 在 做 纹身 视频, 大家 就 反正 这个 东西 生成 出来 的 视频 质量 也就 那样, 就 还好。 但 现在 突然 就 变得 这么好 之后, 尤其是 我 觉得 他 讲 的 这个世界 模拟器 这个 概念, 我 觉得 open I 非常 能够 去 制造 这种 很 宏大 的 技术 愿景, 就 世界 模拟器 从此 来 理解 这个世界。 所以 我 认为 这个 东西 如果 能 实现 的话, 都 还 非常 早。
但 第二, 这 是一个 非常 宏大 的 目标, 这会 让 很多人 觉得 很大 的 威胁, 或者 看到 很大 的 机会。 所以 我 觉得 会有 更多 的 力量 会 投上去 做 这件 事情。 包括 说 我 觉得 对 英伟 达 的 这个 算 力 的 需求, 对 数据 的 需求 都会 进一步 的 提高 很多。 包括 人才 的 流动, 可能 像 比如 蒋 璐, 他 本来 也是 做 加 transformer, 能够 可控 的 去 生成 视频 的 video polo。 比如 字节 对他 也是 就 更加 关注。
可能 我们 礼仪 他 所谓 的 世界 模拟器 多久 能 到?
我 觉得 首先 不可能 是在 一个 几年 的 一个 开始 时 里, 首先 我 觉得 这 里面 有 很多 的 甚至 是 哲学 方面 的 争论, 对 吧? 就 比如说 有人说 他 并不 理解 物理 定律 的 时候, 他 能不能 模拟 这个世界。 但 另外 一方面 也 有人 会 想, 如果 一个 没有 受过 教育, 不懂 任何 物理 定律 的 人, 他 就 不能 理解 这个世界 了。 他 显然 理解 这世界 很多 东西, 对 吧? 这个 杯子 从 桌上 落下去 他 会 碎, 这 肯定 是 可以 理解 的。 我们 不需要 学习 牛顿定律 或者 相对论, 就 能够 对 这个世界 大量 做出 很 好的 反应。
所以 我 觉得 这 里面 就 取决于 说 我们 需要 的 是什么。 因为我 觉得 如果我们 是 说 让 他 去 模拟 真的 两个 东西 相撞, 或者 一杯水 倒 在 地上 会 怎么样, 这种 缸体 的 流体 的 具体 的 物理变化, 我 觉得 这 首先 就 不是 他 适合 做 的 事情。 那 这些 应该 还是 这些 物理引擎 去做 的 这个 事情。
但是 我 觉得 对 首尔 现在 最好的 比喻 就是说 它是 一个 就 像你 脑海中 对 一个 事情 的 想象 一样, 它 未必 是 百分之百 真实的。 它 可以 很 灵活 的 想象 出 很多 的 场景, 他 可以 合理 的对 一件 事情 可能 后面 会 怎么 发生 做出 一些 预知。 我 其实我 自己 想 了 一个 怎么 去 衡量 这种 视频 模型 它 对于 因果性 的 判断。 比如说 他 现在 假设 拍 一个 航拍 的 空 景, 其实 这 没有 什么东西 发生变化, 就是 一个 比较 偏 静态 的 景色, 这个 是 第一个 阶段。
第二个 阶段, 比如说 是一个 物理 上 的 因果关系。 比如说 一个 杯子 里面 装 的 水 落地 打碎, 这 在 物理 上 发生 了 这样 一个 相变。 东西 洒 出来 了, 人 其实 一眼 就可以看 出来 这个 东西 是不是 符合 物理 规律 的。 但 我们 看到 他 举 了 一个 例子, 杯子 打碎 它, 你 发现 它 其实 效果 是 很 不好 的。 杯子 它 不知道 怎么 碎, 当然 有人说 这 是因为 在 一个 视频 里面 碎 的 可能 就 只有 几 帧, 所以 它 没有 足够 多 的 数据 去 训练 这种 发生 下面 态 的 过程, 但 不管 原因 是什么, 我 觉得 搞懂 这个 物理 规律 这是 第一步。
再 下 个 层面, 我 觉得 就是 属于 社交 因果性, 比如说 它 里面 有 另外一个 例子 是 男 一 女 在 沙滩上 面前 的 海边 突然 出现了 一条 鲨鱼, 两个人 变得 很 惊讶。 但 事实上 你 想 如果 出现 一条 海豚, 那 可能 是 觉得 很 可爱, 出 一条 鲨鱼 会 觉得 很 惊讶。 但是 因为 它 在 海滩 上, 所以 鲨鱼 不会 咬 它它 会 觉得 还好。 但是 剩下 鳄鱼 可能 就会 爬上来, 他们 就会 逃跑。
包括 另外一个 例子, 可能 是 说 一个人 打了 另外 一个人 一拳, 除了 这个 拳打 到 人 脸上 的 物理 上 的 变化 之外, 看 是谁 打 谁 对 吧? 那 如果 是一个 婴儿 打了 他的 爸爸, 那 可能 他 只是 恋爱 的, 就 他 很 淘气。 他 如果 是一个 壮汉 打了 一个 很瘦 的 人, 对 吧? 他 可能 是要 逃跑 或者 是 反击。 这 取决于 说 你 怎么 去 从 社会 的 角度 去 推 他的 因果。
现在 然后 我 觉得 再进一步, 就 能够 在 更长 的 时间 范畴 内, 比如说 在 电影 里面, 我们会 这个 开头 的 时候 出现了 一个 什么样 的 剧情, 可能 到 结尾 会有 一个 什么 呼应。 如果 一个 模型 能 真正 能 理解 这种 经过 一段时间 之后 会 发生 什么, 那 这个 可能 又是 进一步 的。 所以 我 觉得 世界 模拟 其实 是 有 很多 不同 的 层次 的, 你说 直接 要 到 就 既 能 模拟 物理 的 因果, 又能 模拟 这个 社会 的 因果, 还能 模拟 比如说 经过 长时间 之后 的 演化, 我 觉得 那个 肯定 是 非常 难 的。 但 可能 现在 我们是 要 看到 了 一些 比较 基本 的 东西。
比如说 我 经常 跟 大家 举 个 例子, 就是 它 里面 有 一只 是 一条狗 从 一个 窗户 的 窗台上 走到 另一个 窗户 的 窗台上。 这个 时候 它的 每 一条 腿 都 知道 该 踩 在 什么 地方, 它 不会 踩 在 空气 中, 对 吧? 在 之前 的 模型 里面, 可能 它 就 莫名其妙 踩 在 一个 空气 里边, 它 就 它 会 掉。 本来 应该 掉下去, 它 不会 掉下去。
现在 知道 我们 可以 看到 狗 踩 的 腿 的 每个 地方 都是 踩 在 正确 的 该 踩 的 地方。 我 觉得 这 其实 也 体现出 了 某种 对于 这个世界 的 认知。 所以 我 觉得 这个 方向 是 特别 有意思 的 一个 方向。
包括 它 里面 有一个 是 my craft, 它的 这个 视频, sorry, 它 能够 想象 出来 一个 玩游戏。 其实 我们在 脑海 里面, 我们 也能 想象 一个 我们在 玩游戏 时候 的 场景, 并且 符合 游戏 中的 一些 规律。 但 如果 能够 通过 这个 去 进行 进一步 的 推演, 其实 它 就是 模拟 了 一个 虚拟 的 世界。
对我 觉得 这 里面 确实 非常 让人 觉得 很 激动 的。 可能 但 我 觉得 这个 目前 体现 出来 还是 非常 涌现 的 能力。 所以 我说 sora 其实 挺 像 它是 一个 P T 时刻, 它 不是 一个 ChatGPT 时刻。 因为 GPT3是 一个 涌现 的 模型, 而 ChatGPT 是一个 产品。 索尔 现在 也是 一个 涌现 出来 了 某些 能力 的 一个 模型, 但是 它 要 变成 一个 产品, 其实 这 过程中 还有 很远 的 过程, 并且 涌现 我们 现在 可能 看到 的 也是 一些 所谓 的 火花 Sparks。 那 真正 要 用到, 我 觉得 其实 花 的 时间 也是 挺 长 的。
这块 我 顺着 俞先生 刚刚 讲 的 那个 世界 模拟 这块 补充 一点。 其实 我们 现在 看见 的 所有 这些 视频, 大部分 都是 基于 一个 文本 的 prom 去 生成 的。 在 这种 预设 下, 其实 我们 很难 看出 这个 模型 真的 对 物理 世界 了解 程度 是 多少。 我 举 个 例子, 比如说 我们 看到 无论是 sorry 还是 之前 的 那些 纹身 视频 的 工具, 经常 会有 很漂亮 的 那种, 比如 实物 特写, 就是 食物, 我 只 吃 了 那些 食物。 比如说 你 有 很漂亮 的 那种 摆好 盘子 的 一个 饮料 或者 一个 冰淇淋, 上面 淋 奶油 或者 淋 饮料。 你 感觉 它 好像 也有 一点 物理 的 模拟 在 里头。 但是 这块 儿 你 注意 模型 是 基于 你 给 的 完整 一段话, 输出 了 一段 完整 的 视频。 它 也许 通俗 一点 讲, 他 可能 在 训练样本 见过 类似的。
真正 我们 认为 要 考察 一个 模型 是否 有 很强 的 世界 模拟能力。 我 可能 会 更 去 在意 他 对于 一个 视频 的 延长 能力。 具体来说 就是你 给定 一个 视频 的 一个 前面 一部分, 比如 前面 5秒, 你 然后 再 往后 去 生成 5秒。 因为 这样的话, 你 一旦 给定 了 一个 视频 的 开头, 其实 后面 的 搜索 空间 就会 变得 更加 的 复杂。 比如说 你 与其 让 他 从头 给你 画 一段, 往 冰淇淋 上面 浇 奶油, 你 把 它 变成 你 给 它 一个 你 已经 把手 放在 这儿, 下面 是 冰淇淋 上面, 你 手里 拿着 奶油 的 这个 喷灌, 这时候 就让 它 模型 把 后面 5秒钟 会 发生 什么, 准确 的话 说 这个 其实 对于 模型 的 要求 会 高 很多。 所以 目前 的话, 我们在 真正 自己 能 动手 去 用 索尔 之前, 我 难以 通过 目前 open 给出 的 官方 这些 视频 来 揣测 它的 一个 世界 模拟 的 真实的 能力。
我们 现在 对于 视频 模型 其实 是 有 两种 类型 的 需求。 一种 类型 就是 让 它 尽可能 的 幻想, 比如说 什么 大黄 鸭 走在街上 对 吧? 或者 是什么 两个 独角兽 相撞, 就是 这种 你 完全 不会 出现 的。 另外 一种 就说 让 他 尽可能 预测 接下来 这个 视频 会 怎么样。 因为 如果你 能够 预测 下 一帧 视频, 理论上 你可以 预测 这个世界, 就 跟 你 预测 下一个 token 之后, 你可以 思考 一下, 所以 这 两个 也许 是 它是 需要 不同 的 能力 的。 他他 因为 现在 是一个 模型, 它 既 干 幻想 的 事儿, 他 也 干 世界 模拟 的 事。 但 有可能 幻想 器 和 模拟器 就是 两个 事情, 最后 也许 是 不同 的 模型, 不同 的 产品 去 完成 这个 目的。 你 需要 的 数据, 需要 的 模型 结构 可能 都会 不一样。
当然 也有 一种 可能性, 比如说 现在 大 模型, 我说 顶级 的 大 模型, 比如 ChatGPT, 我们 其实 有一个 东西 叫做 session prom。 你可以 说 给他 指定 一个人 设, 或者 你 给他 写 一个 思维 钢印。 你 一开始 如果 跟 他说 你 现在 是一个 非常 严谨 的 中学老师, 那 这时候 他 可能 会 变得 非常 的 务实, 没有 那么 多 幻想。 而 你 如果 一开始 跟 这个 ChatGPT 说, 你 现在 是一个 科幻 作家。 它 可能 就会 展现出 天马行空 这个 想象力。 所以 也许 视频 生成 模型 发展到 未来 的 一个 阶段 之后, 我们 可以 通过 类似 于 visual prompt, 就是 一种 视频 的 prom, 或者 你 给他 一些 few shot 的 例子, 你来 改变 这个 模型 的 行为, 来 控制 它 到底 是 走 一个 天马行空 的 路线, 还是 一个 严谨 的 物理 模拟, 这 也都 是 有可能 的。 但 这 可能 就是 一个 更高 的 要求 了。
对于 sora 它的 视频 数据 来源 的 问题, 能不能 推测? 就 比如说 现在 的 一些 大厂, 像 比如说 抖 音, 他们 有 丰富 的 视频 数据, 会 对于 形成 这种 视频 生成 的 产品 更有 优势 呢? 能够 推测 出 这样的 结论 吗? 或者 是 哔哩哔哩 这种 有 丰富 视频 资源, 或者 youtube.
我 觉得 合规 问题 至少 在 海外 会 是 一个 大 的 问题。 毕竟 本来 对于 这 里面 来讲, 你 要 排除 大量 的 牵涉到 用户 隐私 可能 的 东西。 比如说 我在这里 拍 了 一个 我的 自拍, 但是 我 是不是 愿意 把 你 跑 去 生成 别的 视频, 放到 别的 地方, 我 觉得 这 都是 非常 值得 打 一个 问号 的。 当然 我 觉得 有 视频 肯定 比 没有 视频 要强。 但是 在 这 里面, 哪怕 我们 解决 了 这些 隐私 问题, 这些 问题 之后, 在 这 里面 怎么 对 数据 进行 处理, 怎么 挑出 高质量 的 视频, 我 觉得 也是 很 重要 的。 所以 我 觉得 优势 应该 是 有, 但是 可能 没有 大家 想 的 那么 大我 只是 觉得 这个 版权 问题, 其实 这 是对 大厂 非常重要 的 一个 问题。 假设 说 你 生成 了 tiktok 的 所有 视频, 那你 其实 对 tiktok 的 广告 是 或者 它的 创作者 生态 可能 是 致命打击, 对不对?
对我 觉得 训练 阶段 我的 观点 跟 宇森 是 一样的。 如果你 现在 自身 有 很多 视频 的 数据 的话, 你 确实 有 一些 优势。 但 其实 目前 看到 真正 的 难度, 而 不是说 你 有 多少 规模 的 视频, 而是 你 有没有 很 好的 办法 从 这么 多 的 视频 中 挑出 真正 适合 训练 的那 一部分 的 优质 样本。 这个 其实 对 大家 来说 技术难度 是 一样的。
但是 另一方面, 我 其实 在 想象 可能 稍微 再 远 一点。 如果你 有 自身 的 内容 平台, 你 会有 一个 优势, 就是 对于 新的 知识 的 掌握 速度 可能 会 比 没有 自己 视频 内容 平台 的 人 要好 一些。 比如说 我们 每年 都 会有 新的 游戏 去 发售, 或者说 又有 新的 主播 出现。 而 如果 你是 google, 你 有 youtube 或 你 有 twitch 的话, 你 可能 未来 视频 模型 也会 有 现在 大 语言 模型 这样 有 这种 rag 或者 in context 学习 的 能力。 我 如果 是一个 有 自己 内容 平台 的 视频 模型 的 厂家 的话, 那 我的 视频 模型 可能 永远 能 生成 最新 的 正确 的 概念。 而 那些 没有 自己的 这个 数据源 的话, 它 模型 可能 就 存在 一个 比较 死 的 knowledge cut off。 就像 早年 我们 用 ChatGPT 的 时候, 你 问 一些 比较 新的 问题, 他 会说 对不起 我的 知识。 指 到 比如说 2022年 几月, 这 可能 会 是 长期 的 一个 优势, 但 目前 来说 还是 比较 早 的 一个点。
但 有 个 前提 就是说 他 能够 让 自己的 视频 不 被 别人 拿去 训 的对。
当然 就 自己的 视频 自己 肯定 是 能 第一时间 通过 A P I 获取 的, 你 可能 会 别人 早 一天。
还有一个 问题, 视频 的 模型 现在 和 语言 模型 没有 办法 放到 同一个 模型 里 去 训练。
现在 还没有, 应该 基本上 是 有 一起 token ized 之后 去 进行 训练 的。 Sora 其实 没有 用到 大 语言 模型, sora 其实 是 transformer 加 diffusion。 当然 sora 是在 reception 里面 是用 了 这个 GPT4从 它的 tag report 来看。
不过 我 其实 在 想, 比如 我 刚才 举 的 那个 例子, 你 如果 让 假设 说 人 看到 鳄鱼 和 看到 鲨鱼 和 看到 海豚 的 反应 是 不一样的。 你 如果 让 视频 模型 直接 端 到 端的 去 生成, 我 觉得 会 很难。 但是 如果我 是 先 用 大元 模型 把 它 prompt 先 给 写 详细 了。 因为 大元 模型 知道 人 遇到 鲨鱼 和 遇到 海豚 的 反应 不一样, 他 首先 给出 不同 的 prom 的 再 变成 这样的 视频 这种 结合, 我 觉得 至少 在 现在 是 肯定 可以 做 的。 大家 说 可能 最后的结局 就是 所有的 类型 的 内容 都 把 它 token 来 之后, 在 一个 统一 的 模型 里面。 也 有人说 可能 GPT5 就是这样 的。 我 觉得 maybe 只是 在 现在看来 这个 问题 还是 挺 难 的。
首先 现在 的 现状 是 这样, 就是 很多人 其实 在 尝试 这条路, 除了 刚才 雨轩 讲 的 gamma 以外, 其实 我们 刚才 提到 的 video poy 一定程度 上 也 在 做 这件 事儿, 就 不仅 是 文本, 甚至 还 加入 音频 这些 模态。 但 目前 可能 也会 有一个 比较 不好 的 消息, 就是 直到现在 为止, 我们 还没有 一个 确切 的 证据 表明 把 多种 模态 一起 训练 能 让 模型 的 能力 获得 更高 的 突破, 这个 其实 也是 比较 讽刺 的。 就 我们 发现 现在 可能 这些 多 模态 模型 主要 的 能力 还是 来自于 它 这个 语言 的 backbone。 未来 可能 会 随着 更多 的 数据 更好, 模型 结构 可能 会有 一些 改变。 但 目前 来看 可能 更有 可能 的 一个 结果 就是 多 模态 目前 还是 以 一个 类似 于 缝合 的 形式, 或者 你可以 理解 成 外挂 的 形 是 去 继续 推进。 比如说 diffusion 可能 就 负责 在 最后 生成 视频, 而 中间 的话 就像 雨森 刚才 讲 的, 大 模型 可能 像是 一个 导演 这样的 一个 角色。 我 觉得 这样的话 其实 也 不是 不行。 对, 依然 是 能 往后 去 推进 的。 但是 大一统 这件 事 一定 会 是 大家 去 长期 所 追求 的 一个 事情, 只不过 目前 没有 特别 多 喜报。
这个 东西 从 技术 角度 来说, 首先 一个 根本 的 点 就是 语言 它 其实 是 离散 的。 而 我们 看见 的 比如说 像 图片, 还有 音频, 它 其实 一个 自然 的 连续 的 一个 信号。 所以 你 首先 就会 有一个 如何 把 所有 不同 的 输入 放到 一个 特征 或者 向量 空间 里头, 这就是 一个 难点。 语言 的话, 我们 可能 有 像 tokenizer, 直接 把 这个 文本 变成 特定 的 token, 然后 变成 一 bedding。 而 你 要 如果 有 这个 图像 的话, 你 可能 会有 vision transformer 进行 encode。 相对 每一个 模态, 其实 前面 都 会有 一个 单独 的 一个 前置 的 一个 条件。
而 如果你 要把 它 所有 这些 东西 放在 一起 训练 的话, 那 其实 还会 除了 输入端, 你 还 会有 一个 更大 的 一个 难点。 就是说 我 该 如何 确定 我 模型 的 一个 训练 的 一个 目标。 像 比如说 在 语言 模型 训练 的 时候, 我们都知道 了 我们 要 测 下一个 单词。 然后 diffusion 模型, 我们 知道 我们 要 让 它 学会 这个 去 噪, 或者 是 预测出 这个 噪音。 那么 我们 如何 设计 一个 非常 好的 一个 模型 的 一个 loss 或者 一个 任务, 让 它 实现 这个 多 模态 的 理解 和 多 模态 的 输出, 这也是 非常 难, 其实 非 更 值得 去 研究 的 一个 问题。
如果 大一统 模型 能够 实现, 能够 带来 什么? 它 会 是一个 重要 的 milestone 吗?
其实 现在 也有 比较 初级 demo, 你可以 说 现在 是 实现 了, 但 我没有 看见 一个 明显 的 一个 质 的 一个 飞跃。 但 如果我们 往 长远 的 想象 的话, 我 觉得 这个 样 才能 把 很多 不同 的 模态 之间 互不 存在 的 信息 所 打通。 比如说 我们 之前 说 L M 的话, 他是 一个 很 聪明 的 盲人。 那 现在 的 sora 可能 是什么? 虽然 很很 会 画画, 但 他 没有 一个 脑子。 但是 很多 事情 我们在 人 完成 日常工作 的 过程中, 也 需要 多种 能力 的 互相 的 结合。 比如说 自动驾驶, 自动驾驶 其实 你 要 做出 很多 基于 人性, 或者说 基于 物理 的 一些 判断, 这方面 可能 是 L M 所 擅长 的。 但是 对于 比如说 外部世界 的 感知, 以及 对 周围 的 物理 运动 这些 信号 的 捕捉, 这 可能 反而 是 这个 视觉 模型 所 擅长 的。 如果 我们有一套 非常 统一 的 一个多 模态 模型 的话, 在 一些 需要 结合 这些 的 领域, 比如说 刚刚 提到 自动驾驶, 还有 机器人, 也许 会 诞生 出 很多 就现在 做不到 的 事情。
我 觉得 这里 边 一方面 就是说 它 不能 是 一个多 模态, 但是 每个 模态 的 能力 都 一般 的 模型。 因为 那样的话 可能 对 我们 就 用途 不大。 各个 模态 可能 它 首先 要 远 超人类 水平, 这样 它 才能 成为 人类 的 帮手。
第二个 就在 想, 实际上 如果你 是从 工具 的 角度 去 想 一个 事情, 一个 工具 往往 是 越 专 越好, 对 吧? 比如说 你 专 但是 你 强, 所以 你 比较 好啊。 但是 如果你 从 它 作为 一个 主体 本身, 就 比如 他 如果 真的 要 实现 所谓 大家 想象 中的 这种 自我意识、 进化 去 学习, 那 他 有 更多 人的 这个 模态 的 能力, 对 这个 主体 本身 来说 是一个 好事儿。 但是 他 如果 就是 我们的 工具, 那 实际上 你 只要 在 这件 事干 得 很好, 对我来说 就 很 有用, 对 吧? 你 别的 可能 除了 这种 非常 融合 的 任务 之外, 你 可能 就 不太 需要你 会 那么 多。 我 觉得 可能 还是 从 具体 的 场景 去 用。 因为 A I 这 里面 至少 在 目前 看来, 我们 还是 希望 它 能够 带来 这个 实际 的 价值。
对, 没错, 这个 我在 顺 吕 森 刚刚 讲 的 补充 一点。 就是 当 所有的 模态 更 大一统 之后, 也会 带来 一个 更大 的 一个 问题。 就是 你的 系统 变成 了 一个 更加 密不透风 的 端 到 端的 黑盒。 那 其实 对于 很多 场景 下, 它的 可 解释性 会 进一步 下降, 可控性 也会 下降, 所以 也会 带来 新的 问题。 所以 A I 这个 东西 也 并 不是说 我们 一定 非要 追求 一个 完全 通用 和 完全 的 大一统。 这 还是 要 看 场景。
有没有可能 就是 大一统 就 不会 实现。
我 觉得 现在 很难说 什么东西 不会 实现, 只能 讲 什么东西 比较 难 一点。
你们 对 GPT5会 有 什么样 的 预测 和 猜想? 或者 4.5, 今年 应该 是 4.5。
五 还有 一种 说法, 如果 他 进步 够 大 就 叫 它 5, 进步 不够 大 就 它 4.5。 我 觉得 有的 方向 大家 比较 确定 的, 比如说 好像 会 更 少, 可靠性 会 更高。 包括 像 这种 使用 工具 的 这种 所谓 agent 方面 能力 会 更强。 也 有人说 可能 会 能够 去 操纵 一些 人们 用 的 界面, 比如 电脑 或者 直接 就 有点像 那个 vocation 的 那种。 也 有人说 可能 是 偏 多 太 类型 的。
我 觉得 其实 现在 在 这个 下一代 模型 训练 的 一些 方向 上, 大家 其实 普遍 还是 有 一些 共识 的。 比如 大家 觉得 商业 文 长度 很 重要, 不一定 生成, 但 至少 理解 的 能力 很 重要, 对 吧? 减少 allusions 很 重要, 提高 inference 的 效率, 使用 起来 比较 快, 这些 其实 都是 比较 重要 的。 我 觉得 就是说 这 里面 open I 能把 它 推 多远, 我 觉得 sora 其实 给 了 大家 一个 很高 的 期待。 因为 在 年初 的 时候 其实 是 有一个 叙事, 其实 这个 模型 是不是 已经 到了 个 瓶颈期 了 因为我 觉得 去年 实在是 太精彩 了, 所以 大家 有一个 很高 的 期待, 每 过 一段时间 都 要有 一些 很 刺激 的 新 东西 出来。
本来 大家 觉得, 是不是 今年 上半年 可能 没有 那么 多 刺激, 可能 4.5 也就是 比 四 好 一些。 但是 sora 突然 出来, 大家 说 知名 性能 提高 了 这么 多, 那 是不是 我们 对于 五 的 这个 期待 会 高 很多? 我 觉得 其实 我们 现在 要 画 这条 曲线, 其实 我们的 数据 点 还是 比较 少 的。 你 想 GPT12, 大家 猜 主要 还是 关注 3.54, 所以 我们 猜 现在 也有 三个 数据 点对 吧? 接下来 数据 点点 在哪儿? 我 觉得 大家 会对 这个 曲线 之后 长 什么 样子 会有 更多 的 预计, 今年 也很 关键, 因为 大家 今年 砸 了 这么 多 钱 下去, 大家 会 根据 画的 这个 曲线 去 预测 未来。 大家 一般 都是 说 做 一个 线性 或者 指数 外推。
有没有 计算 过去 一年 全球 在 大 模型 上面 砸 了 多少钱? 国内 砸 了 多少钱?
国内 应该 是 百 亿美金 规模, 对 吧? 你 把 差不多 这些 加 的 融资 7788 加起来 就是 几十亿 到 百 亿美金 的。
加大 厂 的 投入。
当然 也要 加。 对, 但是 我们 肯定 是 百 亿美金, 全世界 的 范围内 这个 融资 加上 又有 几百亿, 或者 你 就 看 英伟 达 的 收入, 你看 英伟 达 卖 了 多少 显卡, 对 吧? 包括 给 大家 发 了 多少 工资, 所以 我 觉得 大概 这个 量级 是在 这儿。 我的 一个 基础 假设 就是说 不要 用 静态 的 眼光 去 看 需求, 因为 我们在 这种 科技 大变化 的 时候, 往往 经常 犯 的 错误 就是我 拿 原来的 需求 去 线性 外推。 但 实际上 A I 如果 一旦 做成, 带来 的 价值 是 各行各业 都 有可能 受益 的, 它是 一个 非常 通用 的 技术。
第二, 它是 一个 革命 意义 非常容易 理解 的 技术。 因为 只要你 受过 教育, 你 大概 就能 明白 A I 有什么用, 元 宇宙 web 3有什么用。 大家 可能 还得 想想, A I 有什么用 是 基本上 不言自明 的, 只是 说 能不能 做出来, 什么 都 做出来。
第三 我 觉得 就是 随着 这些 先进 模型 展出 来 的 能力, 所以 哪怕 当 应用 落地 没 那么 快 的 时候, 大家 其实 都 不敢 去 错过 这样 发展 的 机会。 尤其是 比如说 像 美国 有的 这种 头部 公司, 他们是 有 非常 多 的 钱, 他们 一年 回购 就 上百 亿美金。 对 他们 来说, 用 百 亿美金 级 的 钱 去 进行 一个 前沿技术, 一旦 做成 会有 很大 突破 的 探索, 是 完全 划得来 的。 所以 我是 认为 投钱、 投 人、 投 卡, 军备竞赛 会 进一步 的 加剧。 但是 我 觉得 对于 应用 落地 的 速度, 我 觉得 不宜 特别 乐观。 说到底 它 目前 也 从 下载 GPT 发布 开始 得到 大家 重点 关注, 也就是 一年 有 三个月 的 时间, 到 现在 为止, 我们 还是 要 给 一个 应用 的 开发 一些 比较 合理 的 期待。
其实 你 想 在在 拨号上网 的 时候, 就有 了 I M 电子邮件、 电商, 甚至 是 游戏, 甚至 线上 看 多媒体 内容 的 站点。 互联网 是一个 百代 网 宽带网, 网速 越来越快, 它 变得 越来越 有用的 过程。 但 A I 如果 作为 人的 助手 的话, 它 一定要 突破 一定 的 阈值 才 变得 有用。 就是 我们 没有人 愿意 招聘 一个 智商 80的员工, 我们 也 不愿意 招聘 一个 智商 90的员工。 一定 是在 突破 到 一个 100的时候, 大家 才 愿意 去 使用。 所以 A I 的 进展 是 具有 突变性 的, 在 这 突变 之前 可能 经历 的 时间 是 比较 长 的。
比如说 你看 第一次 打卡 的 自动驾驶 挑战赛 是在 05年, 到 现在已经 快 20年 了。 就 自动驾驶 这条 路线, 其实 它 使用 场景 很 确定, 中间 发展 也 一直 在 发展。 但是 直到现在, 可能 我们 说 中医 才 开始 说 自驾 有了 一定 的 使用 场景 和 商业化 收入。 在 过去 其实 投 了 非常 多 的 钱, 非常 多 的 时间, 所以 这个 应用 落地 的 速度 倒 未必 有 那么 快。 但是 我是 觉得 在 这 里面, 基建 首先 会 是一个 非常重要 的 主题, 因为 这 是一个 不管 从 公司 国家 的 角度 都 无法 错过的 机会。
计件 需要 到 哪一年?
我 觉得 你可以 用 一个 互联网, 大概 当时 是 有一个 接近 十年的 周期 的。 假如 我说 互联网 泡沫, 当时 其实 是从 90年代 初 开始, 到 2000年 破 掉, 我 觉得 这个 周期 其实 是 需要 一个 比较 长 的 时间。
很多 公司 都是 泡沫 的 时候 出来 的。
其实 我们 一直 在 说 泡沫 不 可怕, 我们 泡沫 会 带来 重要 的 基建, 基建 会 为 未来 的 应用 打下基础。 泡沫 中 死掉 的 99% 会 死掉, 但是 1% 留下来 的 可能 就是 伟大 公司。 其实 互联网 泡沫 破灭 之后, 留下来 的 像 亚马逊、 google, 当然 现在 雅虎 不行了, 但是 当时 雅虎 也是 存续 了 很 长时间 的, 就 这些 也都 是 留下来 的 伟大 公司。 其实我 觉得 现在 我们 还 远 没有 到达 泡沫 比较 疯狂的 时候。 因为 你看 互联网 应用, 互联网 真正 的 高峰 来自于 第一波 互联网 native 的 应用。 真正 的 落地, 真正 的 上市 的 时候, 比如说 网景、 雅虎、 亚马逊、 google 就是 这些 应用。 当 它 真的 落地 了, 真的有 很大 的 需求, 才会 产生 最后的 大 泡沫。 现在 大家 都 还是 在 基建 的 阶段, 当然 我们 不是说 泡沫 是 一件 好事, 但是 我 觉得 泡沫 是 不可避免 的, 这边 一定 会有 很多 探索 是 需要 去 进行, 很多 钱 是要 浪费 的, 就是 泡沫 破裂 之后 活 下来 的 这个 公司 是 有可能 变得 非常 伟大的 公司。
在 互联网 基建 的 过程中, 哪些 投资人 挣到。
了 钱好 问题, 应该 很多人都 挣 过 很多 钱, 但是 要 看 他们 泡沫 破裂 的 时候 跑的快 不快。
那 为什么不 等到 泡沫 破裂 再 开始 投资?
我 觉得 第一点 就是说 首先 在 泡沫 过程中 会 伴生, 能够 在 泡沫 之后 仍然 活 下来, 并且 成为 伟大的 公司。 比如说 如果你在 互联网 泡沫 之前 你 完全 不 投, 你 也会 错过 像 亚马逊, 像 goole 这样的 公司。 第二, 我 觉得 是在 这个 过程中 获得 的 对于 这个 行业 的 认知 其实 是 非常重要 的。 就 比如说 如果你在 之前 一直 不 参与 互联网, 那你 05年 的 时候 可能 也 投不到 facebook。 你 很难说 我 只 吃 最后一个 包子, 我 吃 第五个 包子 饱 了, 我 前面 四个 不吃, 这个 是 很难 的。 第一 要 对 泡沫 有 定位, 第二 泡沫 真的 破 了 之后, 也 不要 彻底 失去 信心, 这个 是我 目前 想 的 一个。
但是 我 觉得 A I 这 一波, 其实 还是 有 非常 多 的 很 实际 的 应用。 说白了 它 在 很多 领域, 像 ChatGPT, 包括 之前 小米 的 这些 应用 以及 像 sora。 你可以 很 明显 的 看到, 就是 它 不再 是一个 纯 概念 的 东西, 就是说 它 肯定 是 有 很多 东西 能够 留下来 的。
你 过去 一年 投 A I 投 的 非常 多, 你 对于 自己的 要求 是 什么样 的? 多少钱 应该 分配 在 基础 模型 公司? 多少钱 应该 分配 在 应用?
我们 投 了 两家 基础 模型 公司, 智 麟 的 月之暗面 和 老王 的 关联 之外, 当然 老王 后来 就 身体 出了 一些 问题, 比较 可惜。 我 觉得 大 模型 确实 是一个 这 是一个 非常 让人 激动 的 基础 建设。 确实 也是 个 非常 消耗 资本的游戏, 所以 我们 还是 非常 谨慎 的 应用。
我 觉得 肯定 会有 很多 很 有意思 的 机会, 但是 现在 肯定 还 比较 早。 比如说 我们 做好 了 投到 一个 校内 网 或者 是 旧房 的 这样 一个 机会。 因为 现在 肯 很多 的 优秀 的 创业者 会 开始 做, 但是 他们 做了 第一个 应用, 甚至 第二个、 第三个 都 未必 是 他们 真正 的 整 成名作。 当然 我们 因为 是 投 天使, 所以 我们 做好 了 这样的 准备。 所以 我们 就在 想 这 里面 可能 比较 什么样 的 人是 有可能 做出来 的。 但 我们 觉得 第一 对 A I 技术 本身 要 真的 很 懂, 当然 不一定 一定 是 它是 个 researcher, 但 至少 你是 要 真的 懂 A I 第二 我 觉得 要有 国际化 的 这个 视野, 因为 现在 其实 确实 创新 发生 在国外 的 有 很多, 它 不像 比如说 当时 互联网 到了 后期, 很多 都是 这种 o to o, 都是 比较 中国特色 的 商业模式。 那 现在 其实 还是一个人 全球 一起 在 探索 进展 的 时候, 所以 它的 国际化 的 视野 这种 能力 是 有 要求 的。 每 一代人 都有 每 一代人 的 使命, 我 觉得 在 这 里面 年轻 是一个 很 重要 的 变量。
专家 跟 广 密 讨论, 互联网 投 70后, 移动 互联网 投 80后, A I 投 90后, 当然 这个 并不一定 卡 那么 严, 但是 你 会 发现, 其实 因为 人 就 一般 都 是在 这个 30上下。 最有 这的 创造力, 就 最有 经验 加上 颠覆 的 勇气, 对 吧? 所以 我们是 一直 是 觉得 中长 年轻人, 中长 A I native, 中长 有 国际化 视野 的 这样的 一个人。
但 我们 确实 觉得 AI 创业 跟 互联网 创业 有 一些 不太 一样的 地方。 尤其是 我们 看 移动 互联网 的 时候。 因为 这个 时候 基础设施 已经 建 得很 好了, 所以 那个 时候 有 很多人 就在 车库里 边 几个人 搞 几个 月 就 把 这个 应用 做出来 了。 因为 这个 应用 做出来 之后, 可以 快速 的 获取 用户, 建立 一些 网络 效应 这些 壁垒。 所以 你 发现 在 互联网 里面, 第一 小 团队 做出来 的 大 东西, 有 很多 这样的 例子。 同时 非常 的 对于 idea 很 看重, 因为 它的 发散 方向 非常 的 多, 对 吧?
但 我 觉得 现在 其实 对于 A I 的 公司, 因为 它的 数据 算 力 团队 的 成本 都 比较高。 并且 A I 从 开始 到 足够 好, 到 让能 带来 商业价值, 可能 持续的 时间 比较 长, 对 吧? 自动驾驶 我们 已经 看到 了, 咱俩 做了 这么久 时间, 终于 才 开始 产生 一点 收入。 这个 过程 比 互联网 的 过程 要 长 很多。 所以 我们 觉得 这 对于 团队 的 综合 能力, 对于 不管 是 说 他的 这种 技术 能力, 还有 融资 能力 及 团队 的 完整 程度 都是 有 很多 的 挑战 的。
他 可能 跟 互联网 到 中后期 的 那种 百花齐放, 万众 创业 的 情况 可能 不太 一样, 就 这时候 创业 门槛 还是 比较高 的, 但是 我相信 随着 A I 的 基础设施建设 越来越 完善, 大家 对 A I 越来越 的 了解到。 后面 当 大家 把 这些 路 都 铺 好了 之后, 可能 做 A I 应用 也会 变得 越来越 简单。 因为 现在 比如说 你 要 做 个 应用, 你 还得 考虑 模型 的 事情, 你 得 考虑 互联网 的 事情, 你 得 考虑 怎么样 巨头 这个 竞争, 怎么样 搞 数据, 就 你 有 很多 需要 去 考虑 的 东西, 所以 我 觉得 现在 做 应用 肯定 还是 比较 早。
对于 大 模型 公司, 其实 市场上 有 好 多家。 为什么 你 当时 选择 这 两家 投资?
我们 就是 投 最 优秀 的 老司机 和 最好的 小天才。 其实 老王 和 直隶 都是 我们 关注 了 很久 的 创业者 了。
那 为什么不 投 更多 的 人。
有的 时候 也都 是 缘分 知音 其实 我们是 第二次 投 了, 对, 所以 我们 就是 recurrent 的 天使。 老王 也是 跟 老王 也 认识 了 非常 久, 也就 非常 一直 都想 跟 到 某种 方式 合作, 我 觉得 这个 真的 都是 非常 需要 很多 资源, 投资, 我 觉得 这 里面 还是 与 之前 的 缘分 有 很大 的 关系。
为什么 不全 投 一遍?
也许 有了 更大 的 基金会 采用 这样的 策略, 就 事后 你知道 谁 是 淘汰赛 的 选手, 但 你 之前 也 未必 你知道 谁能 走到 淘汰赛。 你 要把 进 淘汰赛 的 选手 全 投 一遍, 你 就得 在 资格赛 全 投 一遍, 为你 能够 一开始 就 开天眼, 知道 谁能 跑到 最后。
对不对? 现在 谁 被 淘汰 了 吗?
没有了你 现在 得 融 到 足够 多 的 钱, 有 足够 多 的 数据 的 第一 梯队 还是 比较 明显 的。
对, 因为 这 两天 刚刚 完成 了 一笔 非常 大额 的 融资。
我们 也 恭喜 指定。
国内 大 模型 占据 里面 意味着 什么?
就现在 月 账面 这 一笔 肯定 是 目前 最大 的 一笔。 当然 我也 知道 大家 或者 都 融 了 几 亿美金, 但 这个 我 觉得 确实 就 到了 一个 淘汰赛 阶段。 如果你 没有 几 亿美金 在手, 你 可能 确实 要 做 基础 模型 就 比较 难。 我 觉得 这 对 他们 当然 是一个 非常重要 的 里程碑。 但是 怎么 把 这个 钱 用 好, 我们 对 指令 还是 非常 有 信心 的。
我 觉得 他在 这个 过程中 呈现 出来 的, 从 顶级 的 research cher 到 对于 创业 的 组织 产品。 因为你 刚刚 也 跟 他 聊过, 我想 女性 肯定 不 只是 说 对 技术 的 洞见, 对 技术 的 微信, 包括 很多 对 产品, 对 组织 的 这些 思考, 我 觉得 是 非常重要 的 一个 一句话, 我 确实 相信 一个 够 年轻, 够 对 技术 够 专注, 并且 真的 是从 一号 位 开始 对 技术 有 一线 的 理解 的 团队, 会 能够 吸引 更好 的 人才。 更有 可能 在 一些 技术 的 方向 上, 一些 技术 能耗 上 有 更快 的 突破, 确实 是我 觉得 就 我们 从 人的 角度 比较 相信, 因为 我们 都 不是 这个 领域 的 专家。 我们 只有 从 一些 创业 本身 的, 可能 我们 认为 低薪 原理 的 东西 去 看。
你 陪伴 他的 时间 很长, 你 有 发现 他 身上 的 一些 变化 吗?
我记得 有 一次 跟 他 吃饭, 他 其实 提到 了 很 重要 一点, 就是 不 希望 以后 大家 提到 这里, 始终 是 说 他是 一个 技术 大牛。 就是 他 希望 是一个 很 好的 企业家, 做出 了 很 好的 产品。 我真的 觉得 我们 因为 我们 投 过 很多 技术 很 厉害 的 人, 但是 能 完成 转变 的 其实 没有 那么 多, 对 吧? 但 我 觉得 认识到 这 一步 很 重要, 是 完成 转变 的 这个 非常重要 的 一 环。
挺 有意思 的。
其实 不光是 国内, 我 觉得 美国 其实 也是。 比如说 你 想 一些 可能 没有 融 那么 多 钱, 或者 在 这个 过程中 模型 没有 太 明显 自己 特点。 这 在 通用 大 模型 这件 事情 上 我 觉得 就会 掉队。
其实我 一直 觉得 讯 通用 大 模型 这个 事情 很 像 做 芯片。 其实 如果我们 去 看, 当时 在 做 互联网, 做 P C 处理器 的 时候, 很快 就 只剩下 intel 作为 龙头。 因为 做 芯片 和 做大 模型 都 需要 低 很高 的 技术难度, 很多 的 资本 开支 投入? 他 要 投入 大量 钱 去 造 新 原厂。 它是 一代一代 迭代 的, 但凡 你 1到2代 没有 跟上, 你 就 掉队 了。 而且 消费者 只会 选择 最好的, 你 有 个 最好的 处理器, 为什么 买 第二 好的 呢? 现在 这个 模型 其实 就是 A I 的 处理器。
好, 我们 看到 比如说 在 这个 里面, intel 跑 出来 之后, 后面 有 三类 玩家 采用 了 3种策略。 第一种 策略 就是 A M D, 就说 我 跟 你 兼容, 但是 我 比 你 便宜。 我 觉得 在 这个 模型 里面 其实 是 会有 以 成本 优先 作为 考量。 很多 地方 我不需要 有 最好的 模型, 我需要 有一个 还 可以 但 我 比 你 便宜 很多 的 很多 开源 模型, 或者 做 这种 在 某些 能力 上 做 一些 取舍, 可能 是 这 是一种。 第二种 就是 像 ARM, 我 做 低功耗, 那 我可以 做小 做 功效 做 的 很低。 所以 我在 手机 上 你 intel 这个 C P U 是 很 牛, 但是 你 不能 装 在 手表 上, 所以 我是 做 一个 就像 这种 以 功耗 取胜, 以 这种 耗能 取 以 这种 尺寸 取胜。
然后 第三种 可能 就是 像 当时 的 英伟 达, 当时 英伟 达 说 我要 做 G P U, 而且 我 G P U 我是 要 做 并行计算, 跟 你的 这个 C P U 是 完全 不一样的 架构。 你的 C P U 你 一开始 处理 这个 图形 只是 处理器 的 一个 工作。 但是 后面 这个 专有 的 一个 垂直 领域 的 任务 变得 越来越大。
所以 现在 因为 大家 成为 世界 第三 大公司, 如果 对应 到 模型 上 可能 也会 有。 第一 就是说 更加 经济 的 模型。 第二 更加 尺寸 小的 模型 对 吧? 现在 大家 说 这 在在 端 侧 做 对应 的 模型 计算?
第三 就是 比如说 可能 我在 某些 大 模型 有, 但是 你 不够 精的 能力 上, 我 就 专门 把 它 做 的 特别 精致。 比如说 你 大 模型 可能 在 这个 finance 上面, 可能 你 不是 个 专家, 对 吧? 那 我 finance 做 的 特别 好, 这个 可能 是 有 机会 的。 但 我 觉得 做 通用 模型 的 这个 事情, 不应该 有 很多 玩家 一直 在 做。 这 通用 大 模型 就 跟 我们 会有 很多 英特尔 或者 很多 media 一样。
这 大 模型 公司 的 出路 会 是什么?
不管 是 美国 还是 中国 的。 我 觉得 如果 真的 达成 了 大家 说 的 就是说 智能 本身 成为 一个 应用 重要 的 驱动。 那么 理论 上大 模型 公司 是 可以 从 它 产生 的 价值 里面 去 收税 的。 认为 归根到底 一个 公司 首先 他 能不能 帮助 别人 创造 价值, 以及 他 从 创造 的 价值 里面 他 能不能 收取 一部分, 这 其实 是 最 核心 东西。 现在 是 大师 认为 大 模型 虽然 现在 还 不能 收税, 但 总有一天 他 会 能够 从 里面 就 去 收税。
所以 它是 自己 可以 run 起来 的 一家 公司。
我 认为 肯定 是啊, 有可能 是 说 你 最后 还得 做自己 的 应用。 比如说 你看 志 林 上次 的 一个 采访, 我 觉得 他的 想法 可能 就是说 他 想做 open I 加 字。 我 不仅 有 模型, 我 还有 最好的 应用。 但是 你看 open I 跟 微软 的 结合 就 很 紧密。 我 觉得 open I 现在 就 像是 个 超级大脑, 但是 他 没有 身体, 他的 这 所有的 身体, 比如 他的 这些 训练 的 info, 它的 很多 东西 都 还是 在 微软 给他 提供 的。 所以 他们 等于 是一个 非常 强 的 组合。 只 如果说 A I 真的 给 大家 创造 了 很多 价值, 而且 大 模型 公司 的 智能 又是 创造 价值 的 核心 来源, 它 就 应该 能够 从中 受到 足够 多 的 take rate。
你们 会 觉得 自己是 技术 信仰 派 吗? 如果 分成 技术 信仰 和 市场 信仰。
首先 我不是 一个 C S 背景 出身 的 人, 所以 我 肯定 对 技术 我 觉得 肯定 很难 谈 信仰, 我 觉得 我 可能 也 不配 谈。 但 我 觉得 我 就 归根到底 我是 觉得 一个 技术 它 要 创造 价值, 一个 好的 研究所 和 一个 好的 公司 是 不一样的。 OpenAI 其实 一开始 也是 今年 他 一开始 是个 研究所。 它 开始 的 几个 重要 的 研究 项目, 比如说 研究 机器人 转 那个 魔方 的, 或者 dota 2, 其实 都是 很 有意思 的 项目。 但是 最后 都 没有 变成 一个 商业 上 的 产品。 其实 OpenAI 最后的 蜕变, 其实我 觉得 也是 发生 在 三毛 他们 来了 对 吧? 还是 专心 搞 这个 语言 模型, 推出 了 ChatGPT 上 的 产品。
之前。 我记得 2016年 的 时候, A I 热 是因为 阿尔法 狗 击败 了 李世石, 对 吧? 那个 时候 大家 觉得, 围棋 公认 什么 人类 最难 的 运动 居然 被 攻克 了。 但 你 想 16年 到 现在, 八年 过去了。 不管 是 deep mind 的 这个 组织, 还是 说是 用于 reinforce learning?
强化 学习 这份 工作, 其实 它的 商业价值 相对 是 有限 的。 包括 像 波士顿 动力, 机器狗 做了 几十年, 这个 双 足 机器 做了 几十年, 它 其实 也没有 把 它 成功 的 产品化。 所以 我是 觉得 我是 比较 相信 伟大的 公司, 可能 不是 伟大的 研究员, 是 伟大的 公司 需要 创造 价值, 是要 做出 好的 产品, 好的 技术 能够 是 好的 产品 中 重要 的 一 环。 但是 同时 也是 非常 需要 有 做 产品 的 人, 做 商业化 的 人 去 把 它 进一步 的 完善。
我 再举 一个 例子, 就是 其实 ChatGPT 这 里面 把 原来的 这个 GPT 对齐 成 一个 chat 的 形式, 其实 是一个 很 重要 的 产品 上 一个 革新 或者 创新。 但 现在 大家 觉得 理所当然。 但是 一开始 的 GPT 是一个 auto complete, 是个 自动 补全 的 模型。 所以 他 没法 跟 你 对话 的 时候, 那 这个 时候 你 就 没办法 使用, 就 很难 对 吧? 就是你 无法 跟 他 产生 那么 多 互动。 当 人 对话 的 时候, 你 发现 用户 跟 他的 互动 变 多了, 用户 有 更多 的 input, 然后 同时 对 他的 给出 的 结果 有 更多 的。
比如说 我们 现在 看 sora, 其实 也会 有 类似的 这个 情况。 就是 sa 现在 就 生成 一个 视频 没了, 它 跟 用户 之间 是 没有 什么 互动 的。 但 我想 如果 sora 从 一个 类似 于 GPT 的 时刻 到 ChatGPT, 那 我们 它 可能 也 需要 一种 它 比较 专有 的 产品 形态, 让 用户 能够 跟 这个 模型 进行 某种 情况 的 互动。 这样 来说, 用户 不是说 生成 一个 视频 就 完了, 而是 说 他 后面 会有 很多 的 后续。 所以 这样 产品 的话, 我 觉得 始终 都是 非常 关键 的。
国产 大 的 模型 今年 还 会有 哪些 预估 吗? 比如说 在 能力 上, 如果 这些 公司 一直 都 没有 产生 一个 特别 牛 的 应用, 它 只有 特别 牛 的 技术 怎么办 呢?
最后 要 到达 很 牛 的 应用。 但是 在 这 里面 技术 上 可能 就像 我 刚才 说 的, 如果 这个人 智商 80, 你 再 怎么 培训 他他 也 不太可能 成为 一个 好的 应用。 确实 我 觉得 在 这 里面 我们 要 避免 一个 陷阱, 就是 在 技术 还 不够 好的 时候 过分 雕花。 因为 比如说 当当 在 去年 有 很多人 在 研究, 怎么样 用 一次 只能 生成 4秒的 视频 生成 模型 去 生成 很多 预告片, 把 它 变成 个 一分钟 的。 大家 研究 了 很多 的 技巧, 但 所有 这些 技巧 你 可能 在 索尔 来了 之后 发现 不需要 人家 直接 生成 一分钟 的 视频。 所以 我是 觉得 确实 像 三 胞 特曼 他 有 一次 分享 的, 你 得 假设 有一个 神 一样的 模型 总 终究会 出来, 在 这种 情况下 我 能 做 什么样 的 应用? 至于 说 你是不是 做出 神 之 模型 的, 还是 说 你是 用 那个 神 模型 的, 可能 不太 一样。 所以 我 觉得 现在 的 很多 应用 可能 是 给 我们 带来 很多 灵感, 很多 prototype。 但是 现在 应用 落地, 我 觉得 肯定 还是 不够 完善 的。
我 再举 个 例子, 比如说 在 手机 上 看 视频。 因为我 在 0几年 的 时候, 我在 那个 windows mobile 上 就 看过 视频。 但 显然 在 那个 手机 处理器 速度 和 网速 的 情况下, 你 能 想到 抖 音, 你 也 做不了 抖 音。 抖 音 一定 是在 你 有了 四季, 有了 iphone, 比如说 有 之后, 有了 足够 的 硬件 软件 算 力 之后 才能 做 抖 音。 所以 我 觉得 可能 说 技术 得 先行。 所以 我是 觉得 当然 我 不太 喜欢 用 A G I 这个 词, 因为 这个 词 非常 宽泛, 可能 每个人 定义 不一样。 那你 至少 对 A I 的 能力 的 前进, 我 觉得 这个 首先 还是 现在 当务之急。
你 怎么 看待 那些 不 投 技术 大 模型 的 投资人, 他们 想 最后 来 收割 应用, 他们 不想 参与 这 一波。
我 觉得 投资 就是 一个 你 有 各种 办法 赚钱 的 一个 行业, 完全 有人 比如说 他 就 不 喜欢 大 模型 的 这种 非常 资本密集型 的 形态, 我 觉得 完全 可以 理解。 因为 我们的 核心 逻辑 还是 说 投 最 优秀 的 人, 就 最 优秀 的 人 干什么, 他 是不是 愿意 去 解决 一些 非常 难, 但是 解决 之后 价值 很大 的 问题, 确实 有 很多 稀释, 对 吧? 但是 我 觉得 符合 我们的 第一性 原理。 但 可能 有的人 就是 要 投 那种 我 就要 占 十个 点, 像 大冒险 可能 占 不到 这么 大 的 股 比, 你们 会 稀释 很多, 那 可能 就 投 不了。 我 觉得 每个 人都 有 自己的 风格 偏好。
这笔 交易 如果 没有 挣 很多 钱, 对 你们 来说 重要 吗?
作为 一个 基金 来讲, 挣钱 肯定 是 我们 最 重要 的 给 L P 的 一个 使命 回报。 但是 就像 我说 的, 比如说 如果 比如说 你 像 当时 s ig 投 了 旧 旧房, 旧 旧房 没 挣钱, 但是 因为 投 了 旧 旧房 所以 能 投 了。 自己 怎么 看待 旧房 的 投资 呢? 还是 那句话, 你是不是 能够 只 吃 第五个 包子 呢?
你们 也 接受 月 这个 暗面 可能 是 张一鸣 的 99房。
如果我 能够 投到 下 个 张一鸣, 那 投 九九房, 至少 你 会 离 投 自己 可能 会 更 近 一点, 对不对? 当然 这 都是 很 理想 的 情况, 但 我们 一直 相信 的 地形 原理 就是说 你 支持 最 优秀 的 人, 那 最 优秀 的 人 自然而然 不一定 祝愿 某 一个人。 但是 这群人 整体 应该 会 跑 赢 这个 市场。
这是 技术 大 模型 公司。 那 应用 应用 在 国内 你 投 了 哪些? 现在 是一个 什么样 的 状态。
下载 P T 出来 之 像 我们 比如说 黑键 otus 这些 应用 是 我们在 21年 左右 投 的, 现在 他们 也是 就在 全球 市场上 应该 也是 有 个 几十个 million A R, 然后 用户 涨 得 很快, 就 可能 也 还 比较 火 的 应用。 大 模型 出来 之后, 我们 能够 公布 的 投资 里面, 像 莫妮卡 浏览器插件 和 独立 的 APP, 其实 也是 一个 用户 增长 的 非常 快。 并且 现在 盈盈 利, 并且 创始人 也是 我们 投 了 第二次 的 连续 创业者。 他 其实 也是 想 除了 这个 浏览器插件 和 应用 之外, 他 还想 传播 更大 更长 长远 的 方向。 当然 我们 还有 一些 应用 公司, 现在 还 处在 比较 style more, 不太 方便 披露 的。 我 觉得 这 也 反映 了 我们 比较 典型 的 就是说 这些 人 对于 新 东西 非常 的 敏锐, 往往 有 海外 的 背景。 因为 现在 的 A I 产品 一 上来 其实 就是 国际化 的。 刚才 说 的 这个 产品 其实 都 是在 全球 范围内。
因为 大 模型 本身 就是 国际化 的对 吧? 所以 它 可以 很 好的 去 帮助 大家 去 使用, 其实我 这几天 在 想 一个 问题, 第一种 情况 是我 能 做 一个 好的 模型, 但 能 做 这件 事情 的 人 少之又少。 第二种 就是说 假设 有 个 好的 模型, 我 怎么样 做 模型 的 代 入党, 怎么样 能够 帮助 大家 把 这个 模型 比如说 用 的 更好。 因为 模型 本身 它 还是 一个 基础 生产 的 资料。 但 比如说 可能 它 不一定 是 有 最好的 界面, 不一定 是 有 最好的 帮你 生成 prop 的 能力, 不一定 是 最好的 交互。 那 我 怎么样 帮助 你 变得 更 强大?
这 可能 也是 很多 做 应用 的 这样的 技术。 因为 现在 很多人 问 这个 应用 是不是 就是 模型? 我 觉得 这 模型 肯定 是 很大 的 一块。 但是 显然 有的 应用 是 可以 做 一些 模型 做不到 的 事情。 比如 假设 有一个 应用 是 需要 多个 模型 串联 使用, 甚至 是 多家 模型 串联 使用, 那 单纯 的 某 一个 模型 可能 都 做不到, 对 吧? 所以 我是 觉得 就 怎么样 帮 模型 变得 更 强大, 就 做 模型 的 带入 的这 也是 一个 我们 现在 想 的 一个 思路。
怎么样 能够 帮助 大家 把 这个 模型 比如说 用 的 更好? 因为 模型 本身 它 还是 一个 基础 生产 的 资料。 但 比如说 可能 它 不一定 是 有 最好的 界面, 不一定 是 有 最好的 帮你 生成 prom 的 能力, 不一定 是 最好的 交互。
那 我 怎么样 帮助 你 变得 更 强大? 这 可能 也是 很多 做 应用 的 这样的 技术。 因为 现在 很多人 问 这个 应用 是不是 就是 模型? 我 觉得 这 模型 肯定 是 很大 的 一块。 但是 显然 有的 应用 是 可以 做 一些 模型 做不到 的 事情。 比如 假设 有一个 应用 是 需要 多个 模型 串联 使用, 甚至 是 多家 模型 串联 使用, 那 单纯 的 某 一个 模型 可能 都 做不到, 对 吧? 所以 我是 觉得 怎么样 帮 模型 变得 更 强大, 就 做 模型 的 代入 的这 也是 一个 我们 现在 想 的 一个 思路。
应用 爆发 了 没有?
我 觉得 还 早, 你 从 用户 使用 的 这个 时长, 从 用户 的 retention 的 角度, 你 只能 说 比如说 下载 GPT 肯定 是 爆发 了。 比如说 在 海外 有 一些 像 microsoft copilot 这样的 这种 企业 里面 的 应用, 我们 也 看到 有 逐渐 的 开始 使用, 人 变得 越来越多。 但是, 目前 可能 应用 都 还 处在 比较 早期 的 这个 阶段, 而且 我们 毕竟 还是 在 第二年, 所以 我 就 觉得 这个 时间 还 早。
我 觉得 讲 的 也 挺 全 的。 我们 有时候 还会 类比 一下 当年 移动 互联网, 那个 时候, 大家 可能 会 觉得 iphone 时刻 是一个 很 重要 的 一个 起点。 但 其实我 当时 也是 亲历 的那 一段。 真正意义 上 来说, 其实 你 后面 还有 两个 节点, 一个 是 生态 上, 你 可能 得 等到 APP store, 这 才是 真正 开始 的 那一刻。 而 目前 来看, 比如说 我们 知道 GPT 有 GPT store, 但是 它 其实 还 完全 不能 跟 APP2 去 类比。 所以 整体 这个 生态 分发 上 我们 还差 很多 的 时候。
然后 后面 还有一个 时刻, 其实 iphone 4 时刻 就是 真正 的 大家 的 设备 到了 一定 的 程度。 这 类比 到 现在, 也许 是 比如说 你可以 说 V D R 的 进步 让 这个 推理 的 成本 进一步 下降。 或者说 有 每个 人的 端 测 的 算 力 到了 一定程度, 能 让 更多 应用 和 模型 能 跑到 大家 的 这个 电脑 上 更 低成本 去 运行。
甚至 后面 还有 很多很多 这种 移动 互联网。 我们 现在 可能 就 很 笼统 说 过去 10年, 但 这 其中 是一个 一个 节点 去 往后走 的。 甚至 比如 当时 移动 互联网 出来 之后, 我们 很多人 觉得 以前 的 桌面 端 做 的 广告 也没有 那么 好在 手机 上去 做了 手机 屏幕 这么 小我 怎么 去 把 这个 广告 的 模式 迁移 到 移动 平台 上。 但 后来 大家 也有 了 原生 广告, 有了 信息流, 逐渐 移动 互联网 的 应用 才 开始 爆发。
那 现在 我们 看, 其实 A I 盈利 的 模式 可能 现在 还 比较 单一。 比如说 直接 就是 订阅 制, 其实 还有 很多 商业模式, 这 上面 的 事情 也 在 探索 的 过程中。 所以 就 种种 迹象 都 表明, 现在 我们 可能 真的 是 处在 以 移动 互联网 的 类比, 可能 是 一个 0708年 的 一个 时间点。 离 大家 所 熟知 的 一二年 往后, 其实 可能 还有 五年 的 时间。 当然 我相信 这次 也得 会 更快。
我 觉得 在 现有 的 范式 下, A I 应用 它 可能 应用 出现 有用的 时间点 会 比 移动 互联网 要 慢。 因为 它 需要 模型 到达 一定 的 能力 程度, 它 才能 从 没用 涌现 成 有用。 但是 当 它 一旦 变得 有用 之后, 它的 扩散 速度 可能 会 远 快 于 移动 互联网 的 应用, 就像 ChatGPT。 在 越过 了 有用的 那个 门槛 之后, 它 立刻 就 成为 历史上 过 1亿用户 最快 的 应用。
因为 移动 互联网, 包括 互联网 当时 网站 和 应用 的 扩散, 其实 它是 一个 软件 和 硬件 都要 扩散 的 过程。 你 没有 智能手机 扩散, 你 就 不可能 有 移动 互联网 扩散。 而 硬件 的 扩散 其实 是 时间 更慢 的。 硬件 你 得 生产, 你 得 升级, 你 得 卖给 每个人。 但 我们 现在 看 的 就是, 只要 说 这个 设备 没 变化, 大家 还是 跑 在 手机 上。 如果你 有一个 新的 A I 应用 出来, 并且 它 足够 有用, 它 可能 就 一两年 的 时间 内 就 席卷 可能 几亿 人 手机, 因为 基础设施 已经 打过 了 去。
看 历史上 新技术 出来 的 时候, 一般 都是 先是 用 新瓶装旧酒, 是用 新技术 去 解决 老问题。 把 互联网 刚 出来 的 时候, 首先 是 比如说 原来 有 报纸, 现在 是 互联网 报纸, 就是 门户网站, 原来 有 商场 现在 是 互联网 商场。 所谓 自营 电商 原来 有 邮件, 现在 就有 email。 但是 当 这个 技术 扩散 到 越来越多 的 人 拥有 或者说 熟悉 这个 技术 的 时候, 就有 可能 产生 全新 的 商业模式。 并且 这些 全新 的 商业模式 一般 是 由 创业 公司 来做 的。
比如说 当 人都 上网 了, 就 开始 需要 有 social network。 因为你 要 找人, 所以 就有 了 像 facebook, 当然 还有 my space 这样的 social network。 当 信息 都 上网 了, 你 就得 有 全新 的 找 信息 的 方式, 所以 有了 搜索引擎。 当 商家 和 买家 都 上网 了, 所以 就有 平台 电商。 这些 全都 是 全新 的 创业 公司 做 的。
当 移动 互联网 发生 的 时候, 大家 其实 也 在 想, 比如说 我要 做 移动 的 浏览器, 因为 原来 有 浏览器, 我要 做 移动 浏览器。 比如 pek 那时候 做了 猛犸 浏览器, 但是 发现 你 很难 做 过 已有 的 玩家, 所以 移动 的 浏览器 还是 chrome。 后来 又 有人说 我 做 过 移动 的 搜索引擎, 当时 pick 又 做了 移动 的 搜索引擎, 结果 发现 移动 的 搜索引擎 还是 百度 和 google。 但是 你看 比如说 当 比如说 内容 生产者 和 消费者 又 都 拥有 智能手机 之后, 才会 出现 像 抖 音、 小红 书 或者 这样的 机会。 当 蓝领 工作者 都 有了 智能手机 之后, 才会 滴滴, 才 会有 美团 这样的 机会, 对 吧? 就 它 也是 一个 智能手机 加 4G扩散 之后 带来 的 结果。
A I 你看 现在 也是 有了 A I 所以 原来 我们 要 写文章, 现在 A I 写文章, 原来 我们 要 画图, AI 画图。 原来 我们 要 生成 代码, 像 A I 写 代码, 我 觉得 现在 又 进入 到了 一个 新瓶装旧酒 的 阶段。 新瓶装旧酒 是 有可能 有 创业 公司 的, 但 同时 也会 对 原来 就 干 那个 旧 酒 的, 它 有 很多 的 优势。 你 比如说 你 github 对 吧, 我 原来是 有 最多 代码, 那 我 直接 把 A I 加上 去 就是 最多 代码, 包括 微软。 但是 我们 如果 这样 进一步 推理, 比如说 A I 的 渗透率 到达 一定程度, 比如说 你我 pick 我们 都有 我们 自己的 真的 AI agent, 就是 我们 真的 助手 帮 我 完成 很多 事情。
那 这个 时候 可能 我们 比如 要有 这样 一个 采访, 或者 有 这样 会 可能 是 完全不同 的 组织 方式 了。 比如说 现在 消费 的 绝大部分 内容 都 还是 人 产生 的, 或者 是人 来 合在一起 生的。 但 如果 绝大部分 的 内容 都是 A I 产生 的, 我们的 内容 消费 形式, 包括 分发 形式 可能发生 什么样 的 变化? 比如 现在 世界上 绝大部分 的 价值 还是 人 创造 的, 但 如果 大部分 家族 是 A I 创造 的那 人和 A I 之间 怎么 去 共处? A I 与 A I 之间 怎么 去 协作? 我 觉得 那个 时候 可能 就是 全新 的 商业模式, 包括 像 机器人 这种。 所以 为什么 我们 对 长期 创业 公司 可能 出 大 东西 有 信仰, 哪怕 现在 我们 看到 的 只是 说 新瓶装旧酒, A I 写文章, A I 画画。 是因为 我们 觉得 技术 当 扩散 到 一定程度, 它 产生 的 这种 全新 商业模式 其实 才是 真正 的 大 机会。
去年 看到 哪些 不 靠谱 的 机会。
我 觉得 很多 机会 不能 讲 不 靠谱, 而是 说 太早。 其实我 举 个 例子, 你 如果 很 有远见, 你 在 黑莓 时代 你说 我要 做 个 抖 音, 未来 肯定 会有 个 抖 音。 你 也许 对的, 你就是 太早 了。 其实 我们 很多 时候 就是 先 练 和 先驱, 只有 一线 资格, 很多 时候 其实 他 只是 做 早 了 一点。 所以 我 开始 有一个 整体 的 看法, 就 对 A I 的 发展 要有 耐心。 始终 你 会 发现 短期 高估 长期 低估。 比如说 当 有人 看 说 物理 世界 物理 规律 要 失效 了, 我 觉得 肯定 就 太快 了。
对, 就是 移动 互联网 让 大家 觉得, 比如说 一个 应用 几个 月 就 做出来 了。 因为 移动 互联网 时代, 大家 看到 了 一个 应用 很快, 几个 月 之后 有 100个超 它的。 因为 超 一个 应用 就 很 简单, 所以 大家 可能 习惯了 用 这种 速度 去 思考问题。 那 可能 就会 发现, 是不是 A I 这个 模型 出来, 我 一年 之后 我 也要 有, 但 实际上 可能 就是 不同 的 一个 时间 节奏。 因为我 觉得 网上 的 不 靠谱, 其实 不是说 那个 事儿 不 靠谱, 而是 说 它 太早 了。
每一次 open I 的 升级 会 对于 V C 来说 是 有一个 大 的 投资 调整 吗?
我 觉得 肯定 具体操作 上 还是 会有 很多 的。 就 比如 我 觉得 一直以来 创业 公司 你 不要 站在 大厂 的 这个 主航道 上。 我 一直 打个比方, 就 火车 在 它的 轨道 上 你 要 去 拦 他, 那 肯定 不 靠谱。 但 留下 的 轨道 之外, 因为 他们 也 脱离 轨道 会 比较 难。 我 觉得 肯定 对 很多 做 视频 模型 的 公司, 这些 都会 是 很多 的 挑战。
但是 我 觉得 其实 反正 我 觉得 又有 更多 的 机会, 因为你 看到 这个 A I 的 能力 在 变强。 A I 能力 在 变强, 因为 它 有可能 解决 更多 的 问题, 产生 更多 的 价值, 而 这些 价值 很多 时候 是 会 被 创业 公司 所 获取 的。 如果 A I 它 很 弱智, 它 这个 模型 没有 进步, 那 创业 公司 你不会 被 他 干掉。 但是 A I 就 没有 价值 了, 那 反而 是 我们 更 不愿意 看到 的 结果。
雨森 pick 你们 去年 一年 的 是 什么样 的 工作 状态? 更 还是 更 闲?
去年 肯定 是 比 之前 要 忙 很多 的, 当然 也 是因为 去年 reopen, 整个 大家 也能 忙 得 起来。 当然 最 核心 的 是 A I G 里面 有 太多 的 东西 需要 去 读 去 学。 其实 原来 投 个 消费, 投 个 移动 互联网, 你 不用 去 读 paper。 我 像 去年 不是说 很多 大佬 都是 自己 下场 读 paper。 确实 我 跟 pek 我们 有 个 内部 读 paper 的 小组, 就 当时 帮 我们 实际上 七八个 人。 我们 那时候 不是 还 写 公众 号 做 那个 测评, 我们 经常 还 开 周会 讲讲 他们 信心 的 配合 有什么。
我 觉得 这些 对于 很多 我们 原来 投 T M T 的 这些 投资人 来讲, 其实 因为 我们的 pix 专家, 就 我自己 肯定 不是 专家, 我们是 属于 journalist, 所以 就是 有 很多 基础 需要 去 学习 的。 但 我 觉得很有 意思, 我 认为 创新 有的 时候 是 有 一些 类似的 规律。 我们 经历 过 互联网, 移动 互联网 的 创新, 也 研究 过 一些 创新 规律 之后, 我 觉得 在 又 来到 了 一个 创新 的 早期, 我 觉得 有 很多 是 可以 去 借鉴 和 通用 的。
我 觉得 这 一波 A I 开始 跟 我们 之前 有一个 特别 大 的 一个 区别, 就是 以前 的 A I 无论是 从 爆发 的 这个 时间点, 你 可能 感觉到 它是 一个 缓慢 在 释放 的。 就 比如说 当时 这个 A I 4小龙, 其实 我们 现在 来看 也都 是 C V 4小龙。 比如 那个 时候 可能 是 rest net, 导致 图像 领域 的 工作 先 玩起来, 你 也要 具体 细分。 比如 有的是 做 这个 人脸识别, 有的 做 目标 追踪。 而 现在 特别 大 的 一个 区别 就是 以 ChatGPT 为首。 它 可能 真的 是 一套 技术 解决 了 很多很多 以前 NLP 领域 不同 的 公司, 或者说 不同 人 擅长 的 东西。
所以 现在 的 A I 无论是 业界 还是 学界, 其实 大家 的 注意力 都在 高度 的 集中。 这就 导致 比如说 我们 要 跟踪 这些 进展 的 时候, 其实 我们 也 在 逐渐 的 迈出 自己 之前 舒适 的 这个 领 像。 比如说 之前 我会 说 我是 做 信息 抽取, 我是 做 知识 图谱 的。 后来 逐渐 跟 大家 介绍说, 我是 做 L P 的。 但 现在 其实 逐渐 可能 大家 要 都在 往 多 模态 的 一个 方向 去 汇集。 所以 现在 可能 对于 每一个 创业者 来说, 他 手上 的 工具箱 是 前所未有 的 丰富。 但是 对于 每一个 技术 专家 或者 researcher 的话, 可能 也 要求 你 要 更加 了解 整个 大 的 一个 行业。 所以 都 是一个 机会 跟 挑战 并存 的 一个 时间点。
我 觉得 对 绝大部分 V C 来讲, 你 尝试 去 判断 技术 是 很难 的。 是 我们 就 从 我们 投资 哲学 上 就 放弃 了 对 这一点 的 判断, 当然 我们 要 去 学习 技术, 了解 大家 在 关注 的 重点 领域 是什么, 以及 这个 领域 目前 大概 sota 是 什么样 的, 包括 大家 在 关心 什么样 的 问题。 但 我们 始终认为 我们 不可能 比 直营 他们 懂 技术, 我们的 肯定 是 远远不如 他们 懂 技术。 以 我们 最 重要 是要 找到 最 优秀 的 人, 让 他们 带领 我们 去 看到 未来 的 可能, 因为我 觉得 也有 很多 投资人 去 讲 技术。 但是 我想 既然 大部分 人都 没有 预测 到 ChatGPT 的 出现, 那 其实 可能 大部分 人 也没有 预料到 索尔 这么 快 的 出现。 其实 很多 时候 觉得 还是 要 关注 在 驱动 技术 发展 的 一些。
根本 的 东西 上。 今年 全球 和 国内 预计 还 会有 多少钱 进入 这个 领域?
我 觉得 比去年 多 一个 数量级 是 有可能 的。
国内 的 钱 从 哪儿 来 呢?
从 V C 的 角度, 从 财务 投资基金 的 角度 是 会 难 一些。 但是 我 觉得 从 战 投, 不管 美元 的、 人民币 的, 其实 都 还是 有 很多 钱 再 继续 加码。 只是 说 可能 就 去年 主要 在 下注 阶段。 那 现在 大家 可能 对于 比较 有 信心 头部 的 公司 会 更多 的 重 注。 一个 数量级 并 不说 就会 十倍, 也许 多两倍、 三倍, 这 也 属于 一个, 但 我 认为 肯定 是 大幅 增长 的。 如果 去年 是 百 亿美金。 今年 我 觉得 肯定 是 千 亿美金 级, 非常 毛估估 的 一个 计算 了。
就 是从 买 卡、 去不去 训练、 招 人 这些 阶段 做到 以后, 作为 好的 创业者 都 会有 对 未来 的 vision, 只是 这个 vision 并不一定 是 一样的。 我 觉得 可能 比如 有的是 想做 通用 的, 有的 可能 是在 玻璃钢 要 做 专用 的, 有的 可能 是要 把 成本 做 低 的。 但 我 觉得 目前 来讲, 首先 还是 在 赛跑 的 阶段, 我 觉得 可能 还是 首先 是要 尽可能 的 追赶 OpenAI。 我 觉得 现在 很难 谈 超越 或者 什么, 但是 你 至少 能够 跟 得 紧。 就 deliver 的 结果 来看, 因为你 规划 的 是要 超越, 但是 你 可能 得出 的 结果 首先 是要 接近。
我 觉得 训 模型 这个 事情, 目前 还有 很多 是 科研 成分, 是 他们 可 科研 成分 的 时候, 你 就 很难 去做 一些 细节 的 判断。 我们 只能 对 工程 和 产品 商业。 比如 商业 上 我 能 预测 一个 公司 去年 年报 做了 多少, 今年 做 多少, 这个 好 预测。 但是 科研 的 事情 很多 时候 就 不 那么好 预测 了, 所以 我 觉得 很多 时候 精细 到 太 精细 的 预测。
我 觉得 都 很难。 最近 还有一个 大事儿, google 推出 了 开源 模型, 这个 对于 整个 市场 会有 什么样 的 影响?
我 觉得 肯定 整体 来讲 对 做 应用 的 很多 人是 好事儿。 但是 肯定 对于 做 开源 模型, 比如说 mr 这些 可能 面临 压力 会 比较 大。
真的 这个 模型 其实 它 开源 的 时候, 虽然 讲 的 是 说 基于 gm 的 技术 积累 跟 这些 工程 上 的 基础设施。 但 其实 你 会 发现 并不是 像 jim a 一样 是 一个多 模态 多元 的 模型。 它 其实 跟 比如说 我们 更 熟悉 的 lama, 还有 一些 国内 的 比较 优秀 的 J 开源 模型, 其实 并 一个 代 差 上面 的 一个 差异。 所以 其实我 觉得 java 的 开源 并不是 一个 特别 显著 的 一个 事情。 当然 这个 对于 google 来说 可能 更多 的 是一个 象征意义, 就是 大 G 又 回到 了 开源 领域, 这 几点 大家 所 愿意 看到 的 一个 情况。 但 具体 这 一个 模型 本身, 我 觉得 它的 意义 是 有限 的。
基本上 目前 来看 就是 sota 达到 了 比如说 mro 或者 是 纳马 二 的 这个 琐琐。 但是 好像 也没有 说 就 明显 哪里 特别 突出 不一样, 也 非常 初步 的 观察。
因为 出来 真的 就 几天, 其实我 已经 用了 一段时间 了, 刚才 这个 结论 我可以 负责, 它 并不是 一个 非常 显著 的 事对。
因为 现在 他 也 在 针对 一些 伙伴 去 开放 这个。
如果 比如说 欧文, 未来 开源 一个 模型 的话, 那 国内 这些 大 模型 公司 不就 白 做了 吗?
有 这种 可能性 吗? 我 觉得 当然 是 有 这个 可能性 的。 比如说 现在 GPT4 就地 开源 对 吧? 就 很难 做。 我 觉得 这 是一个 实在 的 威胁, 就 跟 安卓 一样, 大家 最后 其实 大家 也 不会 去 选择 自己 要 从头 做 个 安卓。 但 我 觉得 在 目前 闭源 模型 的 能力 是 如此 的 可能 的 强大, 以及 投入 如此 之 多 的 时候, 我 觉得 开源 一个 sota 的 闭源 模型 这样的 这个 举动 可是 目前 还是 比较 难 的。
这块 也会 补充 一点, 就是 即使 OpenAI 现在 突然 开源 了 G P4 或者 同等 级别 开源 模型, 其实 如果你 以 国内 的 视角 来看, 好多 时候 你 也是 不敢 用 的。 因为 其实 align 这个 事儿 其实 会 涉及 你 与 谁 alien 这个 问题。 所以 我们 也要 考虑 我们 现实 的 一些 情况。 所以 它 可能 反而 不会 对 国内 的 大 语言 模型 产生 一个 特别 直接 的 冲击。
现在 这种 环境 下, 你们 更 关注 哪 一群 人? 你们的 创业 画像, 哪些 高校 出来 的 人, 那些 背景 的 人和 年轻 AI .
native。 最好 是对 海外 比较 了解, 有过 海外 经验 的, 能够 搭建 一个 比较 完整 的 团队。 比如说 我 创业 的 那会儿 是 09年 的, 那个 时候 创业 还 不是 一个 那么 竞争激烈 的 事情。 所以 作为 创业 公司, 你 犯错误 的 机会 可以 多一点。 但 现在 创业 就 越来越 高手过招, 如果你 一招 不慎 可能 就 挂 了, 是 吧? 所以 现在 我 觉得 对于 创业者, 尤其 你 要 做 一个 大家 关注 的 大事儿, 那你 肯定 这 里面 团队 的 综合 能力 和 连续 创业者 会越来越 多。 见过 猪 跑 还是 挺 不一样的, 像 pick 这样的 就 很 不一样。
自己 就是 猪。
A I 越来越 强悍, 给 人类 一点 建议。
我的 一个 看法 就是, 当然 如果 有人说 A G I 各方面 都 比人强, 那那 现在 也很 难 想象。 但是 我 觉得 至少 现在 的 情况 来看, 我们 做 的 工作 要 有可能 去 教 A I 而 不是说 我们在 做 很多 这种 非 原创性 的 AI 能够 做 的 很 好的 工作。 对 汽车 出现了 之后, 那人 就 不用 跑 了, 比 汽车 快了。 我们 现在 很多 人的 很多 工作内容, 其实 就是 一个 在 做 一个 缝合 怪 的 工作。 就是我 从 这里 复制 点 信息, 那里 拷贝 一点 信息, 这里 搞 点 信息 就 把 它 缝 在一起。 这个 是 现在 比如说 大约 模型 非常 擅长 做 的 事情。 所以 我 觉得 世界 会 更加 对于 原创性 的 思维, 更加 在 A I 的 训练 材料 里 找不到 的 思维 会 更加 的 奖励。
我会 觉得 大量 的 内容, 对 不是 那么 原创 的 内容 都会 变成 A 所 创造 的, 或者 A I 去 完成 的那 人类 可能 就在 去 进行 那种 要么 是 必须 要 人和 人 互动 的, 要不然 就是 这种 必须 要有 高度 原创性 的 内容。 至于 原来 那种 这个 事 既不 原创 也 不难, 只是 需要 个人 干, 那 这个 可能 很有可能 都会 被 别人 替代 掉。 所以 在 这个 里面 我 觉得 主要是 让 自己的 工作 和 能力 不要 落入 到 内容 里面 去。 我 觉得 很 重要 的 就是 我们 当时 看 互联网 最好的 这些 创业者 也好, 投资人 也好, 或者 哪怕 是从 中 获得 了 比较 好 回报 的 从业者 来讲, 其实 都是 充满 好奇心, 愿意 早 去 尝试, 在 这时候 更 早 的 去 得到 这 相关 的 这些 知识 和 经验 的。
哪怕 现在 这些 应用 都 很早, 哪怕 这些 应用 都 还 处于 不 完善 的 状态, 多 去 尝试, 保持 开放 心态, 多 去 试一试, 这个 很 重要。 我记得 那会儿 我们在 面试 产品 经理 的 时候, 就是 看 打开 手机 对 吧, 你 有 装 些 什么 APP, 你到底 是个 天天玩 新 东西 的 人, 还是 一个 其实 手里 就 这么 几个。 对 做 好奇心, 我 觉得 长期 来看 对于 技术革命 的 时候 是 非常重要 的。 包括 我自己, 我们 就 都 不是 技术 背景。 有人说 我不懂 A I 的 技术 怎么办? 我 始终 觉得 假设 你是 个 记者, 那 也 应该 去做 采访 A I 的 记者 对 吧? 如果你 是个 律师, 你 应该 去做 A I 相关 的 法律 的 研究。 如果你 是一个 投资人, 那你 可能 更 应该 去 看 A 的 领域。 所以 就 是不是 直接 做 这个 事情 呢? 但是 你的 职业 跟 他的 关联 始终 是 可以 去 进行 建立 的。
我相信 他是 一个 大 的 革命, 我相信 他 会对 我们的 工作 产生 很大 的 影响。 在 这个 时候 我 觉得 就是 我们 怎么样 能够 帮助 这种 生产力 革命 的 发生。 这个 是我 觉得 我 就 我自己 的 一个 想法 pick.
我 给 人类 的 建议 的话, 我可以 建议 一个 非常 小 且 非常 可 操作 的 一个 建议, 就 一定要 多 记录 自己的 生活。 其实 从 ChatGPT 出来 之后, 我 多了一个 习惯, 就是 我很认真 的 在 写日记。 最近 半年 了, 我 甚至 已经 升级 到了 多媒体 日记。 就 比如 每天 自己的 照片 跟 自己 做 的 事儿, 我会 有 图文并茂 的 记录。
因为 这是 我们 作为 有机 生物体, 我们 其实 是 一天 不如 一天。 我 今天 是我 人生中 最好的 一天, 是我 人生中 最 聪明 的 一天。 但是 A I 这个 东西 它 其实 一天 比 一天 强 的。 所以 我们 现在 要 做什么 呢? 提前 给 未来 的 A I 做 一个 准 或者 带路。
你可以 把 你 自己 每天 的 生活 好好 记录下来。 这样的话 其实 你 自己的 数据 就像 刚才 雨森 讲 的, 这个 其实 是 不会 被 外面 的 A I 给 吞并 的 东西。 而 如果你 把 你 现在 年富力强 的 时候 的 思路 交给 未来 的 一个 A I 的那 其实 你 一定程度 的 获得 一个 数字 的 一个 永生。 所以 这是我 给 人类 的 一个 非常 可操作性 的 一个 小 建议。
看来 你 需要 一个 A I pin 把 你的 信息 尽可能 收集 下来。 我 之前 在 机构 上 写 过 个 笑话, 就是说 好消息, 我们 周 终于 发明 了 能把 你的 所有 数据 生成 大 模型 上 传到 云端, 让 你 实现 数字 永生 的 手段。 坏消息 你 过去 的 几十年 都 没 存。
对的, 就是 这个 意思。 因为 我们 不知道 A I 什么时候 能 到达 大家 想象 那个 程度, 所以 从现在开始, 大家 请 好好 收 你 自己的 数据。
宇森。
你为什么 喜欢 发极 客? 因为 极客 上 有 很多 很 聪明 很 有意思 的 人。 当然 也 因为 极 氪 是 小宇宙 中国 最好的 博客 软件 的 股东, 当然 也 是因为 我们是 极客 的 股东。
你们 现在 怎么 给 A I 公司 估值? 因为 以前 A I 公司 他们 估值 方法, 有 一种 是 按照 人才 密度 给 估值, 一个人 多少钱 钱, 现在 会 吗?
虽然 肯定 不会 显示的 说 这个 估值 怎么 算 出来 的, 但 我想 在 现在 这个 阶段, A I 公司 的 估值 反映 了 很多 是 这个 公司 的 人才 密度。 在 现在 的 A I 这个 领域, 因为 技术 还没有 大幅度 扩散, 所以 顶级 人才 和 普通 人才 的 价值 差异 可能 是 很大 的。 因为我 知道 这个 东西 怎么做, 我 那就 比 100个不知道 的 人 要 更好。 当然 同时 也 和 他们 解决 的 问题 的 大致 的 尺度 有关。 如果 是 一群 很 优秀 的 人 要 解决 个 大问题, 那 并不是 每个 人都 有 资格 去 或者说 有 足够 的 能力 解决 大问题 的。 如果 他 解决问题 很大, 比如说 像 flesh model, 而且 它 确实 需要 这么 多 钱, 也是 个 供需 关系, 对 吧? 就是 一旦 做出来 可能 会 变得 很 有用。 当然 在 这么 早期 的 阶段, 肯定 很多 时候 还是 处在 一种 靠 经验 感性, 或者 俗称 拍脑袋 去 估值 的 这个 阶段。 但 我 觉得 大致 上 与 刚才 说 的这 几点, 团队 优秀 程度、 事情 的 大小、 事情 的 难度, 需要 的 资源 数 是 相关 的。
上 一代 公司 也 没 聪明 的 脑袋, 结合起来 产生 什么 呢? 好像 也没有 什么 实质 的 说。
上 一代 的 A I 公司 对 吧? 我 觉得 这 是个 非常 好的 一个 的 问题。 我的 一个 简单 的 看法, 之前 的 A I 主要 还是 集中 在 一些 比较 垂直 的 领域。 比如说 C B 当时 就是 下一个 围棋, 或者 当时 在 自动驾驶 其实 已经 广 了 一些 了。 但是 自动驾驶 问题 其实 它 需要 的 门槛 太高了。 因为 高速 的 你 一旦 出问题 会 死 人的, 对 吧? 所以 之前 的 这个 A I 我们 看到 了 很多 影子。 但是 这个 过程中 它 其实 还是 局限 在 某些 垂直 的 领域。
但 为什么 我 对于 现在 这 一波 A I 我会 更加 乐观 一点? 是因为 我们 已经 看到 ChatGPT mini journey, 包括 像 sora 这样的 模型, 对 吧? 就 它 已经 是 普通人 能 实实在在 用得上 的 了, 我们 已经 看到 ChatGPT 已经 有 一亿多 人 用过 了, 并且 目前 每天 都有 很多人 在 用。 其实我 自己 虽然 在 国内 访问 相对 比较 难, 但 我可以 给你 举 一个 我 最近 非常 好的 一个 使用 场景。 是 就是我 在 曼谷 的 时候, 当然 我不会 讲 泰语, 就 跟 ChatGPT 说 一句话, 我 就说 当你 听到 泰语 翻译成 中文, 当你 听到 中文翻译 成 泰语, 然后 就 直接 打开 ChatGPT 的 对话 模式。 它 现在 就 突然 就 变成 了 个 双向 翻译器, 这样 我 掏出 来 给 对方, 吧? 对方 说 泰语 他 就会 讲 中文, 那 我 讲 中文 他 就 翻译成 泰语。
当然 这个 功能 你可以 用 一些 其他 的 硬件 实现, 但是 我 觉得 这个 就 点 了 大 模型, 非常 通用 的, 非常 的 他 你 只用 一句 prompt, 他 就能 把 这个 事情 做得 很好, 对 吧? 这个 价 很多 价值 很 实实在在 的。 比如 包括 我 现在 可能 在 出国 旅行 的 时候 看到 一个 东西, 我 可能 拍 个 照片 圈 一下, 问 一下 这是什么 东西。 你 会 发现 它 已经 不是 一个 少数 场景, 少数 尝鲜 者 使用 的。 它 真真正正 能 到了 很多 普通人 的 普通 生活 场景 中 使用。 而且 对于 语言 模型 来讲, 因为 它 可以 写 代码, 它 可以 通过 代码 去 对 外界 工具 进行 调用 去 使用。 那 我 认为 它的 这个 通用性 会 强 很多。
因为 自动驾驶 你 就有 自动驾驶, 很难 立刻 迁移 到 别的 地方 去, 它是 非常 专业 的 东西, 所以 我 觉得 还是 稍微 有些 不太 一样的。 当然 这 肯定 就是 这 里面 会有 很多 探索, 不一定 能 最后 结出 果子 来吧。 其实 我们 很多人 也 在 想, OpenAI 没有 之前 的那 100亿美金 的 探索, 怎么 会有?
最后 来 聊聊 对于 sora 或者 对于 大 模型 不了解 的 地方。 但是 很想 了解。
我 觉得 第一个 从 最 直接 的 数据 需要 什么样 的 数据 才能够 做到 这样的 水平。 这 里面 是不是 有 一些 就是 目前 我们 还没有 意识到, 大家 都 没想到, 因为 容易 想到 的, 比如说 3D引擎, 什么 高质量 的 视频, 这些 有什么 有没有 什么 是 我们 没有 想到 的。 Fix 这个 可能 是 最 直接 最快 的 问题。
长期 的 问题, 我 觉得 始终 就是说 对于 这个 真实世界 的 模拟 能 模拟 到 什么样 的 程度。 因为我 觉得 这个 里面 是 这里 涌现出 最有 让人 兴奋 的 地方。 我 比较 倾向 于 认为 它 可能 能够 足够 到 大部分 的 场景 都 已经 足够 好用。 比如说 open I 他 放了 一个 视频, 是 蚂蚁 在 那个 洞穴 里面 前进。 有人说 这个 蚂蚁 不对, 这 蚂蚁 只有 四条腿, 我 心想 人 去 想象 一个 蚂蚁, 那人 可能 也 不知道 蚂蚁 有 几条 腿, 对 吧?
你 只要 能够 对 事业 给出 一个 足够 合理 的 生成, 其实 这个 时候 已经 可以 用来 解决 特别 多 的 这个 问题。 因为 毕竟 我们 人 就是 每天 看着 这个 视频, 我们在 脑子 里面 生成 我 接下来 要 做什么。 并且 我的 一个 动作, 我 对他 结果 的 预测, 其实 也是 在 我 脑海 里面 可能 就是 一个 视频 形式。 我 认为 我 把 这 瓶 水 拿 起来 会 发生 什么, 其实我 脑子 里面 也是 一个 视频 的 预测, 所以 这 可能 是一个 通向 世界, 不一定 是一个 从 理性 的 角度 去 理解 世界。 可能 他 最后 还是 得 不出 牛顿定律, 但是 他 能 对 这世界 已经形成 足够 好的 理解, 我 觉得 这个 其实 是一个 非常 让人 激动 的 东西。
Pick 除了 sora.
的 技术细节 以外, 其实我 最 关注 的 一个点 就是 它 究竟 能为 开发者 提供 怎样 程度 上 的 一个 接口 或者 可控。 因为 我们 可以 类比 一下 ChatGPT, 就 最早 咱们 普通用户 用到 ChatGPT 的, 它 可能 只不过 是一个 聊天 的 一个 机器人。 但 你 会 发现 比如 最近 一年 在 ChatGPT 或者说 它的 接口 之上, 诞生 了 很多 不同 的 应用。 无论 你说 是 agent 还有 一些 更 细小 的 一些, 比如说 单纯 就 帮你 做 总结, 或者说 给你 做 翻译。 其实 这些 都是 ChatGPT 这个 东西 的 通用性 所 带来 的 一个 质变。 它 其实 不 单纯 是 聊天, 他 把 以前 所有的 NLP 的 任务 都 用 这个 预测 下一个 词 这样 范式 去 统一 了。
我们 现在 看见 sofa 这个 模型 来了, sofa 它 已经 在 视频 生成 上 展现出 了 极高 的 水平。 但 我们 也 在 想, 它 有没有可能 它是 一个 视觉 领域 的 一个 通用 的 一个 模型 呢? 比如 视觉 领域 有 很多 经典 的 任务, 像你 有 那个 大 疆 无人机 的话, 你知道 比如说 你 让 无人机 的 摄像头 拍 着 你的 车, 你 点一下 它 能 画 一个 框, 一直 去 追踪 你 这个 车。 类似的 任务 能 不能用 sora 这样的 一个 视频 生成 模型, 以 补完 的 形式 去 实现 呢? 就 比如说 我是 开发者, 我想 让 他 进行 一项 新的 视觉 方面 的 任务, 只需要 给他 几个 例子, 他 也许 就能 把 这个 任务 给 做好。 所以 我 最 关注 的 就是 sora 在 视频 生成 之外, 究竟 能 给 这个 社区 或者 给 上面 的 开发者 生态 能 带来 怎样 的 一个 新的 可能性。
我 觉得 真正 对 sora 是 怎么做 的, 你 有 派 的 很多 揣测。 我 确实 觉得 我们 不在 一个 最 有力 的 去 了解 这些 事情 的 位置, 所以 我们 讲 了 很多 揣测, 当然 也是 我们 从 认为 比较 可靠 的 一些 角度 去 获取, 但 使用 的 都是 盲人摸象。 只能 说 可能 这 有 一些 自己的 猜测。 所以 我自己 也 非常 期待 在 比如 三个月、 六个月、 一年 之后, 我们 对于 我们 A I 对 索尔 会有 更多 的 了解。 包括 你 像你 对 指定 的 采访 这些 很多人 说 大 模型 会 胡说八道, 我 觉得 人 也是 胡说八道, 只是 人 往往 意识 不到 自己 在 胡说八道 而已。 下了 温暖 的 光明。 Sometimes I think the man can know the gears for turn and the leaves from work.
好, 这 期 节目 就是这样。 如果 你喜欢 我的 节目, 欢迎 前往 苹果 podcast、 腾讯 新闻、 小宇宙、 喜马拉雅、 QQ 音乐 订阅 张小 珺 商业 访谈录。 如果你 有 其他 想 邀请 的 嘉宾, 想听 的 内容, 或者 你 有 任何 想 探讨 的 话题, 都 欢迎 各位 听众 朋友们 在 评论 区里 留言。 我们 下期 再见, 拜拜。