模型 训练 是一个 很 残酷 的 事儿, 它是 一个 价值 毁灭 的 事儿。 硅谷 大 模型 公司 的 融资 基本上 就是 巨头 定价 来 主导 的。 这 很 像 一个 极少数 科学家 推动 的 A I 的 登月 时刻。 我 比较 好奇 伊利亚 后面 会 怎么样, 她 现在 好像 不怎么 在 办公室 出现了, 感觉 sam 很 相信 是一个 政客。 如果说 A G I 真的 实现 了, 你说 sam 会 是一个 新形态 的 总统 吗?
Hello, 大家好, 欢迎 收听 张小 珺 商业 访谈录, 我是 小俊。 这是 一档 描摹 我们 时代 的 商业 文化 和 新知 的 访谈 节目。 今天 带来 的 是 商业 访谈录 的 跨年 特辑, 我 邀请 时尚 创始人 广 密 来 口述 全球 大 模型。 这一年 当 顶级 的 商业 领袖, 顶尖 的 科学家, 这些 人类 最最 聪明 的 脑袋, 手握 数以千万计 的 资本, 狂狷 一年, 2023年, 全球 大 模型 究竟 转 出了 什么? 人类 这场 以 大 模型 为名 的 豪赌 实验, 能否 将 世界 带到 新的 摩尔 时代 呢? 简单 说, 模型 行业 的 发展 规律 会不会 极 类似 于 半导体 行业? 未来 模型 能力 每 1到2年 提升 一代, 模型 训练 成本 每 18个月 是 原来的 4分之1, 而 模型 的 推理 成本 每 18个月 是 原来的 十 之一。
广 密 啊, 今年 一 整年 都 全身心 地 泡 在 大 模型, 一大半 的 时间 肉身 在 硅谷。 他 也 投 了 两家 海外 的 大 模型 公司。 这 期 的 信息量 非常 密集, 我会 在 show note 里 尽可能 详细 的 给 大家 标注 出 播客 里 提到 的 公司 名、 产品 名人 名 和 专有 词汇。 最后 大家 新年快乐。 保密。 因为你 今年 追踪 AI 非常 的 多, 一直 在 给 行业 输送 A I 一手 的 冻结。 那么 先 聊聊 你 今年 的 状态。
你看 海外 独角兽 的 公众 号 和 我的 朋友圈, 过去 一年 的 时间 几乎 没有发 过 A I 之外 的。 去年 这个 时候 我们 有一个 还 挺 关键 的 判断, 这 一轮 的 核心 赛道 只有 一个, 就是 大 模型 本身。 对 投资 来讲, 投 大 模型 可能 就 等于 投, 比如说 十年 前 投 电商 一样, 对 吧? 我们 当时 就 想说, 得 把 全球 第一 梯队 的 模型 公司 都 投 了。
实际上 整个 团队 其实 相当长 一段时间 是 指 focus 到 三家 公司, 就是 open I anthropic 还有 google 这 三个 公司 我 感觉 是 占 了 我们 团队 时间 上 90% 了。 另外 一方面 说 其他 的 公司 带来 的 噪音 是 比较 多 的, 我 觉得 是 只有 这 几个 公司 有 核心 的 secret, 这是我 一个 体感。 另外一个 就是 我们 投资 团队 有 十个 人, 你 就算 每人每天 3到5个小时 人 效, 我 觉得 算下来 也有 接近 1万小时 定律 了, 我 觉得 这 是一个 蛮 有趣 的。 另外 就是我 觉得 核心 的 secret 就在 硅谷, 所以 我 肉身 在 硅谷 花了 一大半 的 时间, 就是这样 真正 的 focus 聚焦, 我 觉得 带来 的 反馈 也是 很 好的。 从 结果 上 来说 就是 我们 新的 一期 旗舰 基金 竟然 还 超过 了 很多很多 R P 主动 找 过来。
第二 就是 今年 我们 只 投 了 两家, 在 年初 的 时候, 这 两家 现在 都是 全球 chat bolt 的 流量 的 前五名。 第三 就是我 觉得 团队 和 我自己 也 进入 到了 一个 叫 加速 成长的 过程。 对, 今年 我 觉得 大家 都是 被 A I 点燃 了, 可能 未来 只有 一个 事儿, 所以 其他 的 事儿 是 可以 做 减法 了。 对。
你为什么 今年 发 了 那么 多 的 朋友圈? 关于 A I 你 有 统计 过 你 大概 每天 发 几条 吗?
平均 三条, 这 是我的 笔记本, 然后 也有 更多 跟 朋友 交互 的。
对你 刚刚 提到 OpenAI topic 和 google 这三家 公司 的 secret, 能 分享 一下 你 发现 的 一些 secret。
我 觉得 如果 只 说 一个 secret, 就是 短期 的 就是 数据 预 训练 的 数据 配比 tokenizer, 然后 怎么 实现? 如果 只 留 一个 能力, 就是 reasoning 这 一个 能力, 推理 能力 来源。
从 去年底 X G B 诞生 这个 事情, 其实 算是 大 模型 军备竞赛 这 一枪 打响 了 之后, 全球 人工智能 经历 了 狂奔 的 一年。 因为你 跟踪 的 很 紧。 跟 大家 首先 分享 一下, 在 你的 脑海里 这一年 有 哪些 重要 的 关键 的 阶段, 有 哪些 重要 的 分水岭。
挺好的 一个 问题, 就 闭上眼睛 一 想, 我 觉得 最 重要 的 几个, 我 觉得 第一个 还是 从 to c 的 流量 端 说 你看 ChatGPT 发布 以后, 我 觉得 chat 就 等于 ChatGPT 这个 心智 了。 我 觉得 它 站 得 还 挺 稳 的, 而且 它 那么 快 的 突破 百万 用户, 1亿用户, 对 吧? 现在 两个 多亿 的 稳定 的 MAU10 多亿美元 的 样, 我 觉得 这个 是 很 了不起 的 一个。
第二个 就是 模型 能力 层面, 今年 3月份 发布 G T4, 我 觉得 是一个 关键 的 分水岭。 G P4 我 觉得 就是 代表 一个 sota 最佳 模型 对 吧? 谁 再 能 复刻 G P4, 我 觉得 就是 关键 节点。 你看 anthropic 今年 7月份 发布 了 cloud two, 内部 是 几乎 复刻 了 G P4, 然后 google 是 12月份 发布 了 jemina 1.0 pro 版本 和 手机 pro 版本 对 吧? 但 我 觉得 pro 版本 基本上 就 等于 GPT3.5, 然后 对 标 GPT4 的 artro 才 下个月 才能 发布。 就可以 说 我 觉得 也可以 说 google 追 上了 G P4, 但是 你 简单 理解 来看, open 是 一年前 做出 的 G P4, anthropy 是 半年前 做出来 的 G P4。 Google 是 下个月 才能 deliver G P4, 全球 其他 团队 可能 还需要 6到12个月 才能 做出来 G P4, 这 是一个 时间线 上 的。
另外一个 可能 就是 开源 比较 重要, 就是 拉玛 和 mr 发 了 几个 模型, 我 觉得 开源 最佳 的 模型 就是 出自 他 两个。 因为 mr 那个 团队 是 lama one 的 核心 贡献者, 我 其实 是 一直 不太 看好 开源 模型 的, 但是 开源 模型 你 发现 后面 进步 还 挺快 的, 我 觉得 后面 也是 值得 期待 的。 第四个 可能 就是 多 模态。 你 从 体感 上 来看, 就 看 Midjourney 它 从 V 一到 V 6, 它 每一个 版本 的 图像 生成 效果 都是 快速 提升 的。 现在 效果 是 非常 好的, 对 吧? 然后 你 再看 runway 和 皮卡 他们 这 一波 的 视频 生成 效果 也 突然 有了 一个 很大 的 提升。 我 觉得 这 是一个 很 好的 开端。 就是 你可以 预期 明年 视频 生成 的 效果 就会 像 今年 图像 生成 的 效果 一样 快速 的 提升。 明 年底 我们 再 回头看 视频 生成 的 效果, 我 觉得 会有 一个 大幅 的 提升。 所以 明年 视频 生成 的 momentum 也 挺好的。
另外 你看 google gam 发 的, 它是 一个多 模态 的 模型, 其实 跟 其他人 都 不一样的。 它是 几个 模态 的 数据 从头 训练 的。 其实 G P four v 都 不算 从头 训练 的, 2024年 的 叙事 肯定 是 卷 多 模态 的。 我 觉得 google 真的 就是 打了 一个 新的 开端, 对 吧?
还有一个 在 硅谷 很 强烈 的 感受, 就是 硅谷 大 模型 公司 的 融资 基本上 就是 巨头 定价 要 来 主导 了。 比如说 A W S 和 google 又 给 了 answer 60亿, 马斯克 的 X A I 可能 也要 融 几十亿。 其实 钱 是 有限 的卡 是 有限 的。 在 第二 第三梯队 的 模型 公司 就 很难 了, 我 觉得 这 是一个。 还有 一个点 就是 其实 你看 这一年 下来 对 大 模型 的 质疑 声音, 我 觉得 依然 还 很多。 但是 你看 硅谷 最牛 的 公司 和 最 聪明 的 人 大家 都 all in 去了。 我 觉得 作为 创业者 和 投资人, 就是 应该 积极 拥抱 新时代, 就是 怎么用 好 新的 计算机 和 power.
这是我 自己 想 的。 关于我们 刚刚 还说 了 几家 关键 的 公司 和 关键 的 时间, 像 anthropic 能不能 给 大家 展开? 先 介绍 一下 Anthony。
第一个 点, 他 有点像 一个 老大哥。 其实 他 核心 的 7到30个 人是 做出 了 GPT two, 做出 了 G T three, 而且 是 核心 力 的。 我 觉得 open 可能 很多人 还是 比较 尊重 他们的。 第二个 点, 他们的 research 能力 我 觉得 是 全球 最强 的, 思考 的 问题 比较 fundamental, 比较 本质。 Darrel 也是 极少数 的 信仰 skin law, 但是 他 发现 加上 他 发明 了 R O H F, 我 觉得 这是 比较 重要 的。 他们 其实 更 早 的 时候 做出 了 cloud, 就是 类似 X G P 的 产品, 但是 没有 发布。 其实 一度 他们的 模型 是 比欧 盘 要 好的, 去年 这个 时候 T T P 发布 了, 我 有了 一个 巨 强 的 心智。 大家 可能 只 知道 open I 但是 没有 太 了解 anthropic。 其实 这 两个 团队 的 overlap 和 技术 路径 是 很 接近 的。
他们 是从 欧派 的 人 出去 做 的 是 吧? 对 他们是 有 啥 分歧? 为什么 要 另起炉灶?
这 里面 有 很多 故事。 当然 你可以 说 几个 月 之前 欧派 内部 也有 一次 分歧, 对 吧? 但 这个 我们 无从 考证, 表面 上 我 觉得 可能 是 safety 问题, 但 我 觉得 又不 只是 safety 问题。 可能 就是 达 瑞欧 跟 sam 会有 一些 美丽 理念 上 的 不同。
然后 也是 有 理念 的 不同。 所以 他们 又 做了 一家 公司。 对 topic 这个 公司 是 什么时候 成立 的?
现在 应该 成立 了 两年 半, 不到 三年, 从 估值 的 成长 速度 上 也是 非常 快 的。
对, 大概 OpenAI 我看 它是 现在 以 1000亿美元 在 融资。 对, anthropic 是 150亿美元 左右。
实际 应该 是 200到250 亿美元。
所以 这个 是 大 模型 相 是 全球 第二 的 一家 公司。
我 觉得 前 两名 就是 他们, 那 google 可能 是 排 第三 的。
google 是 公认 的 吗?
你 有一个 标准 可以 看你 就 看 用户 和 开发者 模型 好用 不好 用。 很多 的 测评 可能 不一定 反映 水平, 但是 用户 开发者 是 用脚投票 的, 用户 选 谁 和 开发者 选 谁? 现在 用户 和 开发者 的 首选 还是 G T back up 就是 cloud, 这 是一个 明显 的。 你看 现在 用 bar 和 google, google 还没有 A P I, 那 我 觉得 现在 还不 明显。
你 刚才 提到 一个点 就是 硅谷 大 模型 的 融资 现在已经 是 巨头 定价 和 主导 了。 这个 是 为什么?
你 花 的 钱 多 吗? 你看 硅谷 V C 几乎 都 错过了 大 模型 的 投资, 也 同样 都 错过了 S P C X 和 tesla 的 投资。 这 是一个 非常 重 的 投入, 没有 商业模式 风险 很大。 其实 这 不符合 硅谷 V C 典型 投资 的 大 模型 的 投入, 可能 跟 V C 这个 产品 是 不 match 的。 大 模型 应该 是 另外一个 金融 产品 来来 支持 的那 我 觉得 买单 方 就是 巨头, 大明星 今天 也没有 商业模式。
对, 巨头 买 了, 或者 巨头 投入, 这 是一个 什么 蓄势。
大家 抢 的 都是 入口。 你 举 一个 最简单 的 例子, 就是 ChatGPT 和 popularity, 它 代表 answer 问答 引擎。 Google 是 sech 我 经常 比喻 说 问答 引擎 就 像是 直接 点 外卖, 所有 都 做好 了。 然后 google search 就是你 去 菜市场 还要 买菜, 你 搜 出来 是 一堆 links, 你 自己 还要 组合。 那 这 两个 用户体验 是 截然不同 的。
但 你 今天 可能 不太 相信 answer 的 结果, 对 吧? 但 我 觉得 最终 效果 越来越 好了, 大家 还是会 相信 的。 你 比如说 ChatGPT 就 已经 把 google 的 上限 开 不住 了, 就是 他 问 的 问题 的 深度 和 未来 刺激 的 互联网 渗透率 的 深度 会有 一个 大幅 的 提升。 我 觉得 answer 这种 形式 有可能 会 把 互联网 的 渗透率 在 大幅 的 拉伸 很多。 因为 很多 的 问题, 以前 大 的 肠胃 问题是 没有 被 解决 的那 现在 就可以 解决 了。 就像 每个人 有 手机 一样, 每个 人都 可以 拍电影, 拍 短 视频。 我 觉得 就是 一个 技术 刺激 新的 消费需求。
总体 来说 卷 了 这一年 以后, 全球 大 模型 产业 卷 出了 什么?
如果说 具体 的 结果, 就是说 你看 欧派 一年 做到 十 多亿美元 的 A R 明年 可能 是 五六十 亿美元 的 A R 他 可能 能 是 历史上 增长 最快 的 公司。
A R R 是 年 化 年年 化 经常性 收入。
对, 但 你看 整个 市场上 其他 的 大 模型 native 的 产品, 所有的 A R 我们 自己 加起来 是 不到 10亿美金 的。 就 不如 欧 盘 一家 的。 所以 你看 流量 上 ChatGPT 也 占 了 整个 chat 流量 的 百分之七八十, 这 集中度 很高 的。 另外一个 层面, 你看 D A U 角度 真的 稳定 在 200万以上, D U 的 大 模型 native 的 产品, 我 只 想到 X G T 和 character 这 两个, 我 暂时 没有 想到。
第三个, 另外 就是 企业级 探索 大 模型 的 use case 现在 成功 的 还 不多, 我 觉得 只有 微软 和 抖 比 现在 比较 激进, 对 吧? 但 另外一个 层面, 我 觉得 大 模型 今天 还在 早期, 大家 也 不用 太 着急。 我自己 经常 比喻 大 模型 很 像 芯片, 就是你 要 等 芯片 的 能力 和 成本 再 迭代 个 两三代, 上面 的 消费 电子 才会 慢慢的 爆发。 我 觉得 明年 这个 时候, 我们 就会 觉得 G T4 特别 傻, 其实 做不了 太多 事儿。 但 今年 已经 代表 未来 环 近十年 的 开端 了。
OpenAI chat B T 这样的 一骑绝尘 的 表现 能够 说明 什么 呢?
用户 对 智能 的 渴望 是 很强 的。 今天 你说 这个 是 入口, 那个 是 入口。 如果 真的 有一个 极其 聪明 到 你 最强 的 同事 的 助理, 我 觉得 对 现有 的 入口 是 没有 依赖 的。 我 觉得 会 形成 新的 入口。 你 比如说 ChatGPT 哪天 智能 程度、 可靠 程度、 反应速度 可以 直接 接入 到 手机 siri 了, 我 觉得 全球 的 流量 入口 又 发生变化 了。 我 觉得 用户 对 智能 的 渴望 还是 很强 的。
同时 它 也是 集中化 的。 如果我们 把 复现 GPT3.5 或者 复现 GPT4 作为 一个 关键 的 门槛, 就 相当于 是 入 决了 半决赛 和 决赛。 那 现在 就是 入围 了 半决赛 和 决赛 的 人 有谁?
首先 复刻 之 力 四 比 大家 预期 的 是要 难 很多 的。 你看 google 整个 公司 举 全 公司 之 力 搞 了 这一年 也 才 明显 接近。 我 觉得 今年 首轮 跑下来 就 决出 前三名。 拍 Anthony google games, 这是 全球 范围 仅 有 这三家 公司 做出 了 G T4 水平 的 模型。 最 期待 的 还是 未来 六个月 谁能 再 做出 G T4 的 模型。
我是 觉得 可能 有 三家 公司 有 这个 潜力。 第一个 可能 是 马斯克 的 x ai 第二个 可能 是 transformer 最 核心 的 一个 贡献者。 Norm 做 的 character, 然后 另外 还有 by dance, 我 觉得很有 机会。
我 觉得 大 模型 的 能力 可能 是 随着 算 力 分布 而 收敛 了。 其实 你看 大 模型 对 信息 的 加工能力 是 比 搜索 和 推荐 要 更强 的这 是在 搜索 和 推荐 之后, 信息 分发 可能 最 重要 的 一个 核心 赛道, google 和 头条 不能 错过。 所以 我 觉得 华人 researcher 是 可以 好好 考虑 自己 的对 另外一个 就是 一线 模型 公司 今天 核心 的 核心 我 觉得 只有 一个, 就是 提升 模型 的 capability, 还 不是 做 产品 和 应用 的 时候。 然后 capability 我 觉得 只有 一个 北极星, 就是 reasoning 推理 能力。 其次 可能 是 重要 的, 比如 成本、 可靠性、 多 模态。 我 觉得 其他 的 可能 都是 小事儿。
接下来 还有 非常 多 的 research 问题 是要 解决 的。 你 比如说 reasoning 推理 能力 可能 是 长期 最 重要, 但 也是 最难 的。 然后 明年 大家 都会 剪 多 模态 对 吧? Coding 代码 能力 可能 是 整个 循环 里面 非常重要 的 一个 轮子。
然后 怎么 解 数学题 和 其他 的 科学 问题。 比如说 未来 用 GPT 来 发现 新的 定律, 包括 怎么用 合成 数据, 可靠性 怎么 解决, 包括 还有 很多 现实 的 问题。 你 比如说 现在 post training 怎么做 R O 怎么做 模型 的 评估? 其实 还有 很多 难题 是 没有 标准答案 的对 这些。
能 复刻 GPT 的 选手, 他们是 怎么 做到 的? 其中 这种 关键 变量 是什么?
我 觉得 一方面 就是 大 模型 的 人才 壁垒 其实 是 非常 高 的, 大 模型 这个 事儿 就是 一群 天才 的 科学家 在 用 G P U data 和 power 去 帮 人类 做 科学发现 的 事。 我 觉得 它 不是 一个 做 创造 的 事儿。 前段时间 贝索斯 他 也 说 了 类似的 观点, 其实 天才科学家 是 湘西 的, 我 觉得 全球 范围 真的 对 大 模型 能有 十几 大 贡献 的 天才 researcher 可能 就 两三百 个人。 其中 一百多个 人 在 open anthropic, 可能 二三十个 人 在 google。 我 觉得 meta A W S N vidia 可能 是 没有 的。 而且 天才科学家 的 聚集 效应 是 很强 的, 就是 这种 人和 这种 文化 其实 是 非常重要 的。 所以 我 觉得 像 其他 的 科技 巨头 做 这 事儿 也 比较 难。 所以 我 其实 没 那么 看好 其他 的 巨头 自身 能 做好 大 模型。 而且 即便 在 整个 硅谷, 是真的 了解 这 一波 核心 变化 的 人 也 非常少。
这个 科学家 你们是 怎么 去 量化 他们的 呢? 就是 你们是 怎么 调研, 然后 得出 了 这个 结论, 就是 在哪里 集中 的 人 最多, 哪里 集中 的 人 相对 少 一些。
我 觉得 来自于 核心 的 A I researcher 的 崇拜。 你 比如说 大家 都很 崇拜 norm, 是 character 创始人, 他 应该 是对 transformer 贡献 最大 的。 他 最早 提出来 skin law 可以 无限 scale, 他 也 提出了 M O E, 还有 很多 创造性 的 发现。 其实 你看 对 今天 对 transformers 真的有 贡献 的 这些 人我 觉得 你 加起来 可能 就是 两三百 个人。 对 很多 传统 的 A I researcher 其实 可能 是 不懂 了 大 模型 的。 你 比如说 meta 的 严 了 坤, 我 觉得 他 跟 大 模型 可能 无关 的。 C V 这帮 人我 觉得 关系 可能 也 没 那么 大。
OK 但是 也 有人 会 相信 说 这个 技术 刚 开始 是 高级人才 做 的 事情。 然后 他 慢慢的 会 泛化, 然后 慢慢的 会 成本 门槛 都会 降低。
我 觉得 还有 非常 多 没有 发现 的 东西, 我 觉得 这 是一个 继续 用 更多 的 G P U data 和 power 来 发现 很多 的。 你 比如说 skin law 本身 是不是 能 继续 work, 能 走向 多远? 我 觉得 这就是 一个 很 重要 的 问题。 而且 有可能 这是 大 模型 走下去 最 关键 的 一个 问题。 如果 不能 继续 skill up, 那 可能 就 停 在 这 一代 下一代, 这也是 一个 很大 的 问题。 这个 问题 我 觉得 所有人 都 无法回答, 那 就是 一个 继续 做 实验 的 问题。
还有 是个 科研 问题。
现在 我 觉得 是个 科研 问题。
科研 问题 还没有 解决 完。
还 不能 成为 一个 理论 问题。
对, 可以 总结 说 有了 人才 加 G P U data 和 power 就可以 做出 GPT4。
我 觉得 有 那些 核心 人才 是 有 机会 复刻 的。 但是 一个 良好 的 文化 我 觉得 是 非常重要 的。 你可以 不知疲倦 的 持续 做 实验, 做 探索。 我 觉得 欧派 的 research lab 的 文化 是 很强 的。 这个 数据 有什么用, 那个 架构 有什么用, 最后 带来 什么 效果, 而 不是 一个 大家 都 去 追 这批 死。 然后 我 觉得 他们 有一个 不知疲倦 的 探索 实验 的 这种 精神, 大量 的 实验, 大量 的 试错。 Researcher 的卡 是 无限 的, 大家 都 低估 了 前期 做 实验 用 的卡 的 数量。 可能 你 比如说 你 就 属 一个 人均 researcher 用 卡 量, 那 可能 是一个 非常 高 的 数字。
它 没有 那么 强 的 短期内 的 R O I 转化 的 这个 需求。
刚才 提到 那个 达到 G P4 的 关键 变量, 我 觉得 第二个 层面 其实 是 G P4 的 短期 壁垒 是 data, 尤其是 free training 和 post training 阶段 的 数据。 我 觉得 全球 范围 真的 知道 G P4 data secret 也 只有 两三百 个人, 而且 几乎 都 在前 三家 公司。 我 觉得 其他 公司 想 搞清楚 这个 data secret, 我 觉得 至少 得 有 几百次 几千次 充足 的 实验。 我 觉得 是 有 很多 research 问题 要 做 的。 你 比如说 preach data 配比 怎么弄, 代码 数据 有 多少 和 怎么用, 怎么做 to niza, 怎么做 R O 其实我 觉得 是 少不了 小 几万 张卡 来 充足 的 做 实验 和 发现 的。 可能 需要 几万 张卡 就是 一个 必要条件。 但 你看 只 追 G T4 可能 是 没有 太大 意义 的那 2024年 又 开始了 新一轮 的 竞赛, 而且 2024年 很 关键, 我 觉得 是 决定 长期 格局 最 关键 的 一年。 然后 格局 形成 后 其实 是 很难 改变 的。
明年初 authority cloud z 和 GT4.5 要 发 了, google 这 估计 明年 6 7月份 发 它, 上半年 就会 把 领先 的 模型 的 能力 再 提升 一个 大 的 台阶。 而且 明年 肯定 是 多 模态 的 叙事 的, 如果 那个 时候 你 再 追上 G P4, 肯定 是不是 第一 梯队 了。 所以 我 觉得 对 追随者 挑战 还是 挺 大 的。 所以 可能 今天 就要 直接 做 下一代 多 模态 模型, 这是 一个点。 另外 还有一个 训练 成本 的 问题, 就是 如果说 cloud 3和GT4.5 训练 成本 可能 2到3 亿美元, 那 再 往后 的 2526年, 再 下一代 的 模型 训练 成本 至少 可能 是 10亿美元, 甚至 说 三五十 亿美元。 我 觉得 这是 有 这样 一个 预期 的。
另外 一个点, 我 觉得 这个 事儿 的 一个 核心 变量, 可能 还是 取决于 大家 是不是 信仰 skin law。 你 信不信 已经 能不能 做到, 能不能 继续 skin 下去, 可能 是 长期 的 唯一 关键 变量。 目前 我 觉得 极少数 的 科学家 是 很 信 的。 比如说 刚才 提到 character norm anthropic 的 darrel, 还有 open and ellia, 他们 三个 对 skin law 的 贡献 也是 最大 的, 同时 也是 信仰 最强 的。 所以 我自己 经常 感受 这 很 像 一个 极少数 科学家 推动 的 A I 的 登月 时刻。 如果说 这个 事儿 很 像 登月, 那 其实 是 只有 极少数 的 几家 公司 能 参与 登月 竞赛 的。 如果 真的 要 保持 全球 第一 梯队 是 必要条件, 可能 就是 百 亿美金 在 未来 3到4年 的 投入, 百亿美元 的 训练 成本 可能 是 少不了 的那 如果。
就是 这 第一 梯队, 他们 达到 这个 GPT4 的, 首先 这个 决赛 的 俱乐部, 他们 能 做出 什么 呢? 就是 为什么 现在 我们 要 最快 的 达到 这个 俱乐部。
再做 下一代。
做了 下一代。
我 觉得 可能 是 会有 一个 轮子 的, 再 卷 个 两袋, 可能 第四名、 第五名 和 之后 的 人 几乎 都会 放弃 了。 可能 资源 就会 集中 在前 三家, 人才 是 有限 的卡 是 有限 的。 我 觉得 再 过 两年 能源 是 有限 的, 资源 会 非常 的 集中 在 头部 的 两三家, 那就 大家 努力 成为 两三家 模型 公司。 OK.
你说的 这个 是 美国 的 还是 全球 的?
全球 的 我 觉得 更 偏 硅谷。
O K 那 就是 硅谷 的对, 硅谷 可能 最后 两三家。
对, 但 硅谷 可能 辐射 不了 中国市场, 但 有可能 会 辐射 欧洲 市场。 南美 市场、 东南亚 市场、 OK.
那 中国 的 趋势。
中国 可能 会 比较 分散。 因为 技术 的 辨识度 很低, 我们 不知道 谁 是 领军 人才, 所以 资源 资金卡 都 相对 比较 分散。 但 这 不是 一个 分散 能 做出来 的 事儿, 就 像是 我 也没有 那么 看好 开源, 你 就 把 这个 事儿 比作 是 做 芯片 或者说 去 登月。 做 SpaceX 众包 可能 是 意义 不大 的, 所以 是要 集中力量 办 大事。 我 觉得 这是 适合 一个 top down 来做 的 事儿。 但是 现在 国内 的 资源 又 比较 分散, 不知道 谁 是 绝对 的 领军人物。 所以 你看 每天 的 资源 都是 3到5 亿美金, 然后 接下来 谁能 拿到 3到50 亿美金? 而且 现在 还有一个 硬伤, 就是 G P U 这个 不足, 是 肯定 很难 像 欧派 一样 去 追求 登月 的那 就 只能 看看 有没有 其他 的 路径, 欧派 没 做好 的 或者 做 不好 的那 中国公司 有没有 弯道 长城 的 机会。
你说的 这个 登月 就是 A G I 对 吧?
对, A G 我自己。
感觉 硅谷 的 趋势 和 国内 的 趋势 还是 很 不一样, 特别是 到了 下半年, 硅谷 的 趋势 可能 还是 在 讲 A G I。 但是 国内 已经 在 讲 我们 到底 怎么 商业化 落地, 我们 到底 能不能 落地? 我们 如果 不 落地 的话, 我们 怎么能 融 到 下 一笔 钱, 这是为什么?
我 觉得 硅谷 公司 的 技术 辨识度 很高, 谁 领先? 而且 大家 因为 看见 很多 实验 结果, 所以 相信, 所以 大厂 更 愿意 投 更多 的 钱。 我 觉得 这些 模型 公司, 你 比如说 open 和 ano pic, 每家 再 融 个 100亿美元, 我 觉得 完全 是 很有可能 的。 我 觉得 open 未来 几年, train model 花 个 两三百 亿美元 应该 没问题, unsorted 再 花 个 一两百 亿美元 也 没问题。 大家 还是 巨头 愿意 相信 这个 事儿, 而且 有 足够 的 资源 去做 这个 bat 这个 bat 风险 我 觉得 也是 很大 的。
有可能 哪天 堵 的 是什么? 就 刚才 说 的 堵 的 入口。 对我 觉得 他 可能 是 很多 科技 公司 的 主航道。 就 比如说 google 的 search, 如果 apple 模型 能力 不强, 那 siri 被 别人 做 走了, 对 吧? 那 比如说 meta 它是 一个 真人 的 社交网络。 如果 未来 我们 跟 虚拟人 agent 社交, 新的 社交网络 是不是 不是 长 这样的, 可能 长 其他 样 的, 所有 公司 好像 都 是对 这个 还很。
相关 的 硅谷 的 这种 A I 巨头 主导 的 这种 阵营, 他们 分成 哪几个 派别?
最 领先 的 就是 微软 和 open I 对, 这是 其次 就是 亚马逊 和 google 支持 了 s topic, 这是 第二个。 第三个 我 觉得 又是 google 它 自成 一派。
为什么 亚马逊 和 google 要 一起 支持 anthropic? 为什么不是 一个 巨头 支持 一个?
因为 敌人 的 对手 就是 朋友。
所以 他 大概 也就 分 这 两个 阵营, 然后 google 再 自己 再 做了 一套。
还有一个 最 关键 的 就是 apple 跟 tesla。 其实 你看 我 觉得 大 模型 最 相关 的 三个 大生意。 第一波 是 芯片, 英伟 达 对 吧? 第二 波 是 公有 云, 微软 的 云和 亚马逊 的 云, 这 两个 是 最大 的 声音。 可能 未来 模型 都 是要 跑 在云上, 那 云 还是 一个 比 芯片 和 模型 要 大 的。 所以 云 厂商 拿 未来 每年 营收 的 3到5个 点 去 投 模型 公司, 我 觉得 完全 make sense。 第三个 大生意 是 终端, 一个 是 手机 的 端, 还有一个 车 的 端。
最后 apple 和 tesla 我 觉得 会 是一个 更 关键 的 阵营, 明年 apple 到底 支持 谁? Tesla 有 X C I 对 吧? 这 又是 一个 题。 但 X C I 现在 是 晚 了 6到12个月 的那 未来 能不能 开 岔, 这是 很 关键 的。
你 判断 是 可以 是吗? 你 对 他们的 判断。
我 觉得 X C I 的 人才 质量 很 高速度 也 很快, 概率 是 大于 50% 的。 但是 手机 这个 端 又是 一个 非常重要 的 端。 如果 手机 的 内存 未来 两年 能 提升 4到5倍, 那 端 测 其实 是 能 承载 非常 多 的那 A I 公司 的 成本 结构 也会 发生 很大 变化, 就 可以在 端 侧 推理, 而 不是 云 侧 推理。 端 还是 离 用户 更 近, 我 觉得 手机 肯定 还是会 继续 变强 非常 多。
Apple 预计 会 怎么做 呢? 他 会 自己 做 还是 支持 一家 公司 做?
Apple 不是 从 google 挖 了 很多人 吗? 我的 感觉 好像 他们 追到 G T four 还是 很 有 压力 的。 如果 做 不 出来, 那就 只能 投 一家 和 收购 一家。
谁 呢? 可 选 的 就 是谁啊 and topic, 那 相当于 他们 都 google A W S 和 apple 都 可能 会 集中 在 第二 阵营。
因为 欧派 I 被 微软 独家 锁定 了。 不能 跟 其他人 合作。 对, 所以 我 觉得 这是 最大 的 问题, 这也是 最大 的 bug。 反而 如果你 更 开放 一些。
W 也可以 开源。
我 觉得 最强 的 模型 不会 开源 的, 因为 这里 有 很多 的 safety 问题, 它 不像 一个 软件 一样 能 开源, 大家 能 改 模型 是 不可 编码 的, 不可 解释 的 模型。 为什么 有 这个 智能? 大家 今天 还是 不知道 的。
就像 人脑 一样。 对, 为什么 马斯克 去 做了 X A I 而 没有 继续 在 OpenAI 里面?
不是 撕 逼 了。 其实 你看 马斯克 最早 投 过 蒂夫 曼 的, 后来 被 google 给 截胡 了。 然后 又 founding 成立 了 欧派, 又被 微软 给 截胡 了。 我 觉得 马斯克 肯定 是 心存 巨大 的 怨念 的, 他 对 A I 肯定 也是 有 非常 不一样的 理解 的。 自动驾驶 可能 是 整个 泛 ai 最大 的 最 清晰 的 一个 落地 场景, 我 觉得 他 对 A I 的 思考 和 理解 肯定 是 很 重要 的。 我猜 他 肯定 也 意识到 这 波 大 模型 肯定 是 非常重要 的 一条 技术路线, 那 对他 来讲 他 不能 错过。
为什么 没有 停摆 它? 首先 meta.
推出 了 lama 对 整个 开源 世界 的 贡献 我 觉得 是 非常 大 的。 我 觉得 开源 有可能 未来 就 等于 meta 拉玛 的 能力, 我 觉得 今天 还是 北斗 GPT3.5 的, 而且 拉玛 团队 里面 我不 觉得 有 所谓 的 天才。 Research 人才 的 quality 比 open 和 atheros 可能 还是 要 落后 一些。 至于 最强 的 模型 要不要 开源 出来, 我 觉得 这 是一个 很大 的 坏事。
硅谷 的这 一波 大 模型 的 格局 和 阵营, 你 觉得 会 在 什么时候 稳定下来 呀?
我 觉得 2024年 跑 完, 基本上 决定 大概 的 格局, 窗口 可能 就是 未来 12个月。 如果 未来 12个月 追不上 去, 后面 再 翻转 其实 是 很难 的。 就是 因为 模型 竞争 很 残酷, 我 觉得 模型 就 很 像 造 芯片 或者 SpaceX, 最 理想化 的 格局 是 很 可能 只剩 一家, 就是 最 领先 的 模型 又 最 便宜, 没有 理由 用 第二家。 但是 就是 因为 阵营 的 抗衡 都在 抗衡 微软 跟 open I 所以 我 觉得 有 不同 的 阵营 对 吧? A W S google 阵营, apple 跟 tesla 终端 又 代表 一个, 所以 这样 推演 下来 可能 大概 就是 2到3家.
然后 再加上 一家 meta 不就 多了 吗?
我 觉得 meta 不一定 是 大 模型 公司, 它是 一个 用 A I 做好 自身 业务 的 公司。 甚至 有可能 google 也是, 有可能 google 的 大 模型 如果 输 了, 但 如果 他用 好 A I 技术, 做好自己 的 产品, 有可能 我不知道 能不能 稳定 住, 有可能 稳定 不住, 我 觉得 技术 变革 还是 很快 的那 中国?
中国 会 跟 硅谷 有什么 不一样的 特点?
就是 刚才 聊到 中国 会 更 分散, 因为 技术 辨识度 太低, 因为 你不知道 谁 好。 假如 我 今天 有 10亿美金, 我 投 给谁? 资金 和 人才 就会 分散 到 多家, 格局 就 比较 分散。 所以 最后 最简单 的 你 就 数 谁的 卡多, 那 有可能 是 自己 的卡 最多。
中国 有 形成 这种 巨头 主导 定价 的 状况。
到了 这 一步 吗? 好像 没有。
为什么呢? 巨头 看起来 都很 积极, 但是 为什么 没有 硅谷 巨头 那么 激进。
就是 巨头 的卡 也 不多, 大家 也 买不到 更 多卡 有限 的卡, 巨头 都 还想 自己 试一试 能不能 存 出来。 巨头 有可能 不 觉得 自己 会 比 创业 公司 差 太多。 我 觉得 微软 和 亚马逊 已经 清楚 的 意识到 自己 可能 不如 open 和 anodic, 所以 他 放弃 了 自 研 这条 路线。 中国 的 巨头 因为 技术 辨识度 比较 差, 有可能 自己 也 想 试, 也 想 投。 但 投 又 没有 微软 那个 决心 和 魄力。
也没有 欧 蓬安。
那样 团队 对 大家 投 个 三五千 万美金。 我期待 说 未来 什么 巨头 能 投 个 5到10 亿美金。 另外 还有一个 卡 的 问题 要 解决。
我 觉得 中国 这 一波 投资 也很 有意思, 它 跟 之前 移动 互联网 的 那个 完全 不一样。 因为 以前 移动 互联网 可能 是 巨头 A 投资 B 公司, 巨头 C 投资 D 公司, 就是 非常 的 泾渭分明。 但是 这一次 可能 大家 都 一起 进 一家 公司, 而且 可能 一起 进 多家 公司, 每个人 投 个 三五千 万美金。 为什么 会 是 这样的 一个 现象 呢? 如果 是 真 入口 的话, 大家 不是 应该 都 重 铸 一家 公司。
技术 辨识度 很低。
还是 这个 问题。
不知道 挺好。 那 你说 这 几家 未来 合并 有没有 价值 不知道。 最后 人才 的 复用 度 和 卡 的 利用效率 怎么 提上去, 对 吧?
复刻 GPT4是 一条 正确 的 路 吗? 因为 如果 达到 了 GPT4 的 水平, 但 依然 没有 与 之 能 相匹配 的 商业模式。
那 怎么办 呢? 如果你 做 不 出来 G T4 水平, 有可能 在 下一代 的 模型 有可能 也 做 不 出来。 我 觉得 还是 有 相关性 的。 G P4倒 不是 一个 明确 非得 要 追求 的 目标, 而是 说 它 可能 就是 一个 mos stone。 你 比如说 这种 资源 的 必要条件, 人才 的 必要条件, research culture 的 这种 必要条件。 我 觉得 它 只是 一个 科学发现 过程 中的 一个 产物, 它 不是 一个 充分条件。 如果你 做不到 这个 水平, 那 后面 的 模型 再 下一代 再 下 下一代 可能 就 更难 了。
GPT4 早 一点 到, 晚一点 到 又有 什么 关系 呢? 核心 是 大部分 人都 能够 达到。 这 是不是 也 意味着 其实 达到 G P4 的 门槛 没有想象 中 那么 高, 最终 模型 公司 形成 的 壁垒 是什么 呢?
首先 我 觉得 不太 同意 G T4 门槛 不太 高 的 说法。 我 觉得 起码 未来 6到12个月, 复刻 G T4 门槛 还是 很高 的。 从 G T3到 GT3.5, 很多 公司 是 有 机会 到达 的。 但是 从 GP3.5 走到 G P4, 我 觉得 难度 是 会 增加 5到10倍 的, 只有 极少数 公司 能 到。 另外 就是 关于 你们的 时间 早 一点 晚一点 区别 还是 很大 的。 如果你 更 早 的 到了 G P4, 首先 G P4 生成 的 很多 数据 质量 就 很高, 是 比 公开 互联网 上 数据 质量 要 高 的那 这个 生成 的 数据 与 对 训练 下一代 模型 是 很 有 帮助 的, 这个 是 有 飞轮 的那 更 早 达到 G T4对 吸引 人才 和 资金 进来 也是 很 有 帮助 的。 我 觉得 大家 只会 拜访 前 三家 公司, 后面 的 456、 234梯队 意义 就 不大 了, 融资 窗口 就 关掉 了当 你 在 12个月 以后 再到 G T4, 欧派 已经 经历 了 比如说 多 模态 的 4.5, 能力 更强 的 G P5。
G P5 在 2024年 是 有 机会 看到 的那 那个 时候 你 就会 发现 GPT4 可能 做不了 太多 东西。 可能 就是 你的 一个 实习生, G T5 可能 是你 身边 最强 的 那个 同事, 那个 时候 可能 就 不用 G P4 了。 所以 你 就 看 模型 训练 是一个 很 残酷 的 事儿, 它是 一个 价值 毁灭 的 事儿。 因为你 训练 出来 了 更好 的 模型, 前面 的 一代 模型 可能 就 没有 用处 了, 对 吧? 而且 如果你 把 成本 降下来, 那你 出来 4.55 以后, 那 4和3.5就 不要 了, 是一个 很 残酷 的 事。
然后 你说 模型 公司 的 壁垒, 我 觉得 是 很 像 台积电 或者 SpaceX, 或者 宇宙飞船、 航空航天。 首先 它 肯定 是 有 很强 的 先发 效应 和 规模 效应 的。 但 目前 是 没有 看到 像 搜索 和 推荐 一样 很强 的。 大家 喜 互联网 上 喜欢 的 网络 效应, 数据 飞轮 这些 东西 我就是 看不到 的。 但 未来 靠 什么 维持 长期 的 壁垒? 我 觉得 今天 还 不知道 能不能 像 互联网 范式 一样, 有 网络 效应, 有 数据 飞轮。 但 我 觉得 今天 拆 G T 可能 就是 一个 消费品 品牌 心智 站住 了, 数据 飞轮 我 觉得 还是 不强 的。
刚才 聊到 我 觉得 还有一个 现实 的 壁垒, 就是 全球 第一 梯队 的 模型。 我没有 100亿美金 的 储备, 而且 有 机会 转化成 G P U, 是 没有 办法 待在 全球 第一 梯队 的这 是一个 硬 标准。 另外 你看 open I 它的 壁垒, 你 从 心智 上 chat 就 等于 chat P T, open I 等于 A G I。 用户 和 开发者 目前 首选 是 GPT, 还是 有 很强 的 心智 和 入口 效应 的。 但是 欧 盘 也是 有 缺点 的, 他 今天 依然 还没有 数据 飞轮, 对 吧? 欧 盘 可能 也 不一定 是一个 以 用户 和 客户 为 导向 的 公司, 它是 一个 A G I 为 导向 的 公司, 有 所以 有可能 其他 公司 也是 有 机会 的。
对你 觉得 往 未来 看 的话, 发展 应该 关注 的 有 哪些 核心 的 要素?
我 觉得 大冒险 往后走, 我 觉得 大家 就 关注 两条 主线。 这也是 我们 自己 瞎 总结 的, 就是 所谓 的 新时代 摩尔定律。 第一条 主线 就是 智能 的 capability, 这 里面 就是 智能 的 水平 reasoning 推理 能力。 未来 参 数量 数据 G P U 我 觉得 能 持续 skill 很多年, 每 1到2年 模型 水平 就能 提升 1到2代。 每 提升 一部分 可能 就会 解锁 一些 新的 应用。 回过头来 你 再看 G D 4, 今天 可能 做 的 事情 还是 有限 的, 还在 早期 阶段, 而且 你 可能 也 没 那么 放心。 就 像是 如果 这个 T 能 接到 手机 siri 了, 我 觉得 那个 时候 是一个 巨大 的 转折点。 我 觉得 你 就 关注 未来 模型 能力 提升 的 过程 当中, 你可以 画 一条线, 每 提升 到 多少 分, 那 可能 解锁 多少 的 应用, 我 觉得 是 有可能 的。
然后 另外 一条 非常 核心, 被 大家 忽视 的 就是 模型 的 成本。 我 觉得 是 会 是 模型 公司 非常重要 的 一个 隐形 竞争力。 其实 模型 训练 的 成本 在 过去 18个月 已经 降 了 4到5倍, 然后 模型 推理 的 成本 在 过去 18个月 应该 降 了得 有 十倍。 而且 这个 成本 的 优化, 我 觉得 再 优化 个 两 三轮 应该 问题 不 大大 模型 推理 的 成本 除以 100, 我 觉得 是 非常 可 预期 的这 两条 主线 就会 决定 A I native 应用 大 爆发 的 幅度。
就是 一个 是 能力 往上走, 每 到 一个点 上 可能 某些 应用 出来 了。 这 就像 手机 有了 sensor, 有 网络带宽 增加 了, 移动 支付 出来, 短 视频 出来 了。 我 觉得 这 是一个 能力 技术 能力 本身 的 迭代 过程中 会 出现 很多。 第二个 就是 成本, 所以 我 就 觉得 A M native 应用 今天 可能 还没 到大 爆发 的 时候, 如果说 再 卷 个 两袋 也许 可以。 对 成本 降低。
的 核心 是什么? 优化 能力 的 核心 是什么?
对 G P U 的 利用率, 对 架构 的 优化, 哪些 是 可以 不用 调动 的, 包括 对 精度 的 调节。
这是 工程 问题。
大部分 是 工程 问题, 也有 一些 research 问题。 你 比如说 小数点 后 32位还是 16位还是 四位, 但是 你 不能 影响 模型 的 performance。 这个 调 其实 也 不太 容易, 但是 工程 能力强 的 团队 我 觉得 应该 还 可以。 O I 的 优化 能力 是 极强 的。
现在 GPT4 的 训练 成本 是 多少? 下一代 模型 的 训练 成本 会 是 多少? 因为你 提到 说 G P U 成本 到时候 会 大幅 下降, 那 为什么 训练 成本 会 大幅提高 呢?
就是 训练 成本 其实 分 两个 部分, 我 觉得 这里 可以 有一个 科普, 就是 一部分 是 实验 成本, 一部分 是 最终 大规模 训练 的 那个 训练 成本。 你可以 理解 一年 当中 其实 是 有 九个月 你 要 做 实验 的。 实验 其实 就是 小 尺寸 的 模型 做 训练。 然后 做 足 了 训练 之后, 有 2到3个月 做 一次 大 的 训练。 那 这一次 就像 一次 大 的 火箭 的 发射。 所以 你 简单 按 时间 来 分, 就是 4分之3 的 成本 用 在 做 实验, 4分之1 用 在 大 的 训练 就是 发射。 你看 G P4, 当年 我记得 有些 rumor 就是 公开的, 就是 他用 了 2.2万张 一百 训练 了 100天, 而且 这个 是 大概 一年半 以前, 而且 这个 纯 的 大 的 训练 成本 是 差不多 8000万美金。
但 模型 最大 的 成本 还 不是 这 一个, 而是 前期 的 实验。 你 要有 很多 卡, 做 成百上千 个 实验, 各种 数据 各种 架构 你 要 探索, 对 吧? 足够 的 实验 量 和 试错 率, 而且 大 模型 的 训练 失败率 是 很高 的。 如果你 训练 失败 了, 还得 再 从头再来。
还有一个 值得 科普 的 就是 模型 参 数量 在 700亿的 时候 是一个 分界点, 700亿以下 能 容忍 非常 多 的 错误, 它 不会 全 崩。 然后 700亿参数 以上 每 往 上 扩大, 其实 遇到 的 训练 的 难度 是 指数 级 提升 的。 模型 越 大越 容易 出错。 其实 训练 大 参数 数 的 模型 失败率 是 非常 高 的。
还有 一个点 其实 是 容易 被 大家 忽视 的, 其实 刚才 提到 open 的 优化 能力, 成本 优化 能力 是 很强 的那 比如说 他们 训练 完 G P4 以后, 因为 具备 了 这个 训练 能力 了, 可以 再 重新 训练 一个 GP3.5。 它 可以 把 3.5 的 inference cost 降 的 非常低, 对 吧? 我 觉得 主要是 成本 考虑。 你看 开发者 大会 它 推出 了 G D 4 turbo 那 turbo 也 应该 也是 从头 训练 的, 其实 能力 比 G P4 要强 一些。 但 它的 训练 成本 我 估计 已经 降 了 四五倍, 推理 成本 也 降 了 将近 十倍。 当然 定价 可能 没有 充分体现 出来。
另外 你 提到 比如说 下一代 模型 为什么 要 那么 多 的 训练 资源? 你 比如说 下一代 就是 多 模态 模型 对 吧? 那 各种 模态 的 数据 要 从头 retrain 进去, 而 不是 用 现在 的 flame 给我 挂 起来。 那 你看 视频 数据 的 portion 其实 比 文本 的 token 整个 更 复杂, 要 高出 一个 量级 的 G P U 的 资源 的。 如果说 你 参 数量 又 扩大 一倍, 又是 一个多 模态 的 模型, 它的 需要 的 G P U 资源 可能 是 需要 之前 的 10到20倍 以上 的, 而且 还 包含 了 优化 能力。
因为你 就算 一个 简单 的 账, 假如 G T4 当时 是 25100张 卡, 100天turbo 可能 比如说 七八千 张卡, 六七十 天, 那 其实 有 个 五倍 提升。 那 同样 给你 25000张卡, 其实 你 有 已经 有了 四倍 的 提升。 那你 再加 四倍 的卡, 这是 16倍的 提升。 我 觉得 可能 下一代 模型 实际 算 力 可能 是 当年 G P 46到32 倍 的 提升。
对, 就是你 如果 这样 算下去, 到 2025年 训练 一个 大 的 模型, 我 估计 可能 花费 要 10到30 亿美元 之间, 甚至 不止 的。 因为 今天 大家 训练 都 是用 H 100了, H 100实际 跑 出来 的 效果 应该 是 A 100的1.5到2倍 之间, 可能 还没有 到 宣传 的 3到6倍。 对, 然后 那 后面 还有 B 1版, 还 可能 有 新的 卡。
有没有 统计 过 就 全球 今年 总计 向 大 模型 领域 下注 了 多少? 他们 花了 这么 多 钱 博 的 到底是什么 呢?
我们 就算 一个, 比如说 最 头部 的, 比如说 欧派 今年 买 卡, 我们 就 瞎猜, 可能 比如说 30亿美金 还 不算 人才 和 股票 激励, 对 吧? 那 全球 范围 至少 乘 5, 全球 就是 150亿美金。 我 觉得 未来 欧派 训练 模型 可能 未来 还需要 至少 得 两三百 亿美金, google 也 不能 低于 这个 数。 然后 S P1 200亿美金, 所以 我 觉得 未来 几年 3到5年 至少 要 花 1000亿美金。
1000亿美金 赌 下去 到底 赌 的 是什么? 刚才 聊到 大 模型 今天 还是 一个 实验 科学 阶段, 就像 我们 对 人脑 的 智能 今天 还不 理解。 其实 大 模 为什么 涌现出 智能, 我 觉得 今天 还是 不 理解 的。
我 觉得 今天 可能 就是 一个 探索发现 的 一个 时刻, 而且 现在 提升 模型 智能 水平 只有 一个 路径, 就是 skin law。 可能 未来 每 一代 模型 至少 比如说 扩大 一倍 的 参数, 一倍 的 数据, N 倍 的 G P U, 目前 还没有 看到 其他 路径。 而且 skin law 本身 其实 今天 还没有 一个 理论 支撑, 对 吧? 就是 一个 实验 和 试错 的 总结 的 经验。 你 也很 难 判断 GT4.5和 G T5 能力 到底 怎么样。 我 觉得 是 没有人 能 判断 的, 包括 skin law 是不是 哪天 会 停下来, 我 觉得 今天 也 无法 下 判断。
所以 我 觉得 大 模型 今天 是 人类 一个千 亿美金 的 bat 那 最后 赌 的 是什么? 我 觉得 有一个 预期, 你 比如说 未来 15年 这 一波 A I 能不能 让 全球 的 G D P 翻倍, 我 觉得 这 是一个 很 好的 预期。 还有一个 你 比如说 如果 硅谷 提前 实现 了 A G I, 那 对 全球 的 地缘政治 我 觉得 也会 有 很大 的 影响。
硅谷 会 探讨 像 国内 公司 这样的 生存 问题 吗? 就 国内 公司 他们 有的 说 虽然 大家 现在 都 融 了 很多 钱, 但是 也 不知道 未来 的 商业模式 是什么, 怎么 落地, 然后 应用 是什么。 他们 可能 也会 比较 焦虑 这 波 模型 公司 的 出路, 硅谷 公司 会有 这样的 焦虑 吗?
我 觉得 硅谷 的 模型 公司 今天 更 像 一个 research lab。 除了 chat ChatGPT 意外 的 爆 红 以外, 我 觉得 模型 公司 商业模式 还是 不清楚 的对, 而且 硅谷 V C 也 几乎 都 错过了 当前 的 投资。 我 觉得 硅谷 他们 悔恨 了。
错过了 什么 心态 呢?
肯定 可以 说有 借口。 今天 说 大 模型 还没有 商业模式, 估值 hip 很高。
对, 有 泡沫。
那 你看 他们 也 依然 错过了 tesla P X, 我 觉得 V C 这个 产品 可能 不一定 卖出 这种 高风险 高 投入, 看不清 商业模式 的 公司 投入 的这 是 两个 产品 不 match 的 问题。 我 觉得 即便 硅谷 的 大漠 微星 公司 独立 I P O 可能 也很 难。 我 觉得 百分之八十九十 大 概率 还是 被 收购 的。 所以 我 觉得 大 模型 公司 还是 要 抱大腿 的。 对, 因为 没有 商业模式, 你 今天 看不到, 除非 未来 有 全新 的 商业模式。 比如说 现在 也 不是 按 sis based, 未来 比如说 有 按 value based 的 定价 模式, 就像 电商 take 一样, 对 吧?
我 觉得 除非 有 巨大 的 变化, 还有 一个点 就是 其他 公司 像 欧派 一样 去 追求 登月, 我 觉得 是 很难 的。 因为 G P U 资源 不够, 钱 不够, 人才 也 不够, 所以 只能 走 差异化 路线。 你 比如说 中国 的 M I M A X 可能 是 比较 有 特点 的, 他们 应用 端 做 的 还 蛮 好, 我 觉得 是 有 一定 取胜 机会。 就 刚才 提到 那个 欧 盘 本身, 我 觉得 也是 有 缺点 的, 他 有可能 未来 也是 有 不稳定性。 你 比如说 拆 GPT, 今天 肯定 是 没有 搜索 和 推荐 这 两个 产品 那么好。 有 数据 飞轮, 而且 它是 实时 反馈 到 后 端 模型 的 实时 对接 的。 但 因为 模型 今天 是 预 训练 的, 是 没法 做到 实时 反馈 的。
而且 chat 的 这些 数据 我 觉得 比 公开 互联网 和 A I 生成 的 数据 质量 很低 的, 所以 可能 大 概率 也 用不到 训练 open I 它是 一个 追求 A G I 为 导向 的, 但 并不是 以 服务 用户 为 导向 的那 如果 有 公司 更 focus 在 满足用户 需求 上, 有可能 我 觉得 也是 能 取得胜利 的 果实 的。 我 觉得 国内 确实 在 基础 fundamental 的 research 投入 上 就是 比较 小。 但 我们 过去 培养 了 一大批 的 产品 人才, 我 觉得 这个 就是 有利有弊。 那 有可能 未来 就是 比如说 在产品 侧 的 突破, 也有 机会 跑出 很 有 价值 的 公司。
对 国内 公司 的 这些 所谓 的 商业模式 不清晰, 出路 不明确, 对 这些 公司 有没有 什么 建议?
那就 提前 抱大腿, 比如 阿里 对 吧? 有 阿里云 和 钉 钉 业务 场景 也 挺好。 其实 你说 阿里 像 微软 吗? 我 觉得 比如说 新的 C E O 能 像 撒 帖 一样 有 魄力, 那 我 觉得 他们的 底子 还是 好的。 然后 自己的 能力 可能 是在 其他人 之上 的那 可能 不一定 需要 收购。 然后 百度 觉得 自己 行, 但 不知道 未来 是真的 行不行。 然后 腾讯 现在 也 在 试对 吧? 那 我 觉得 抱 好一个 大腿 可能 比较 重要。
对, 提前 学习 一下 硅谷 经验。 对, 然后 选 边 站 除了 抱大腿。
有可能 要 思考 大 模型 native 的 产品 怎么 像 搜索 和 推荐 一样, 有 这么 好的 数据 反馈 闭环。 如果 谁 先 能 跑 出来, 我 觉得 还是 非常 有 优势 的。
这个 也就 可以 独立 发展 对 吧? 对, 如果 能够 跑 出来 的话。
如果 有 数据 飞轮, 甚至 说 未来 的 网络 响应, 我 觉得 这 才是 科技 投资 的 明珠。 但是 数据 飞轮 和 网络 效应, 这是 留在 互联网 范式 下 的。 在 A I 范式 下 这 两个 效应 还 存在 不存在, 也 不知道 未来 到底 对 吧? 对。
因为你 也 经历 过上 一个 移动 互联网 的 时代, 你 觉得 这个 A I 范式 大 模型 的 范式 和上 一个 时代 有什么 不同?
互联网 是 讲究 网络 效应, 数据 论文 工 规模 效应 这些, 对 吧? 但 大 模型 和 A I 今天 好像 还 看不到 这些 效应, 我 觉得 起码 ChatGPT 可能 是 看不到 网络 效应 和 数据 飞轮 的。 他 只 知道 一些 用户 quality 的 分布, 能 更好 的 指导 训练 哪些 数据 重要, 哪些 不重要。 你可以 的 去做 一些 小 模型, 满足 头部 的 query。 我 觉得 今天 ChatGPT 可能 更 像 一个 消费品。 微软 co pilot 也 占据 了 copilot 这个 性质, character 占 住了 road play 这个 性质, 还不 像是 那种 数据 分类 联网 效应 很强 的。
我 觉得 之前 移动 互联网 我们 复盘 一下, 之前 可能 最 核心 的 是 两个。 一个 是 全球 多出 了 四五十 亿 的 用户, 对 吧? 然后 第二 手机 上能 采集 更多 的 数据 了, 你可以 做 机器学习 和 推荐。 所以 其实 你看 手机 的 电商 的 匹配 率 是 比 P C 电商 的 匹配 率 提升 了 一个 数量级 的。 也可以 说 移动 互联网 时代 没有 做 机器学习 和 推荐 的 都 没 跑 出来。 我 觉得 模型 这 里面 很 隐形 的 一个 核心 竞争力 可能 是 成本。 如果你 能把 成本 做 的 极 低, 你的 模型 还 不输, 那 我 觉得 这就是 极强 的 核心 而已, 就像 芯片 了。
然后 现在 做 的 最好的 是 欧鹏 A 我 觉得。
头部 公司。
当然 pick。
对, 所以 我 觉得 成本 是一个 隐形 的 竞争力, 被 大家 忽视 了 很多。 所以 未来 怎么 跑 出来 数据 效应 和 成本 上 的 规模 优势, 我 觉得 可能 是 挺 重要 的 取胜 关键。 我 觉得 欧 恒安 身上 也是 看到 了 一定 的 规模 效应 的, 就是 非常 像 芯片, 就是 模型 能力 每 一两年 提升 一大袋 过程中 解锁 应用。 然后 每 一两年 每一 两代 模型 也能 把 成本 降低 非常 多。 这 就让 后面 的 追随 公司 可能 再 过 两代 就 追 不动 了。
你 作为 投资人, 就是 在 看 移动 互 老师 的 产品 的 时候, 和 看 现在 这些 公司 和 产品 的 时候, 你 觉得 你 自己 有什么 变化? 你的 关注点 会 不一样 吗? 状态 会 不一样 吗?
我 觉得 有 两个 点, 第一个 点 是要 意识 到大 模型 是 最 核心 的 赛道。 然后 没有 模型 可能 是 没有所谓 的 A N native 应用 的。 我也不知道 未来 所谓 的 super APP 没有 自己的 模型 是不是 work。 有可能 没有 自己的 模型 能力 就 不存在 super a 但是 也有 可能 大家 构建 在 头部 的 模型 之上, 也能 构建 出 自己的 这块, 我 觉得 还是 一个 开放式 的 问题。
然后 第二个, 我们 也 在 想 一些 track 这个 A N native 产品 的 指标。 目前 可能 还是 最简单 的, 就是 流量 上 看 谁 每个 月 涨 得 比较 快, 用户 反馈 比较 好, 流程 比较 好, 可能 这个 跟 移动 互联网 还是 有 一些 类似的。 但 不同之处 可能 就是 首先 是 中国 创业者 更 关注 全球 市场 了, 这 是一个。 第二个 可能 智能 是一个 最 关键 的 变量。 传统 的 产品 经理, 我 觉得 包袱 有可能 很重。 现在 的 产品 还是 有 很多 包袱 的。 有可能 怎么 理解 模型, 用 模型 的 能力 才能 做出 好的 产品。 有可能 现在 在 模型 之上 队 很多 的 features U I U X 这些 有可能 是 徒劳 的。
最后 有可能 模型 比如说 就像 电 对 吧? 你 能 做出来 灯泡, 还能 做出来 电机, 能 做出来 电动车, 就是 A I 的 应用 跟 移动 互联网 的 应用, 我 觉得 今天 还是 比较 模糊 的, 还 很难 总结 出来。 最 主要是 今天 的 可 参考 的 成功 案例 还是 太少 了, 也就 头部 那 几家。 然后 ChatGPT character proxy 觉得 真的 A I native 的 产品 还是 太少 了, 还得 再 等 个 一 两代 的 模型, 会有 更多 native 的 产品 出来。
这个 速度 是不是 低于 年初 的 预期?
我们 年初 低估 了 做到 GPT4 的 难度, 高估 了 应用 大 爆发 的 速度。
这 应该 是 很多。
人的 想法。
那 开源 会不会 冲击 到 闭源 模型 的 生态? 哪些 人 有 诉求 使用 开源 模型, 最终 开源 和 闭源 能 达到 一个 什么样 的 格局 和 最终 的 状况。
首先 我 觉得 开源 模型 是 追不上 闭源 模型 的, 而且 差距 肯定 会越来越 大。 这个 还是 回到 横向 芯片 或者 SpaceX。 因为 大 模型 它 不是 一个 传统意义 的 软件, 开源 模型 不可 编码, 不可 解释, 大家 没办法 一起 做 贡献 对 吧? 包括 G P U 要在 单 11个集训 连 起来 训练 才 更 高效。
但 开源 模型 本身 的 价值 我 觉得 也是 挺 大 的, 就是 开源 模型 的 使命, 它 不是 做 最 聪明 的 模型, 而是 承接 先进 模型 溢出 的 很多 能力, 做 民主化。 因为 未来 很多 用户 和 企业 的 需求 它是 分层 的, 可能 有 相当 大 比例 的 需求 是 通过 一定 能力 的 模型 就可以 覆盖 的, 很多 企业 和 大规模 的 用户, 他 优先 考虑 的 是 成本 问题。 所以 开源 这 里面 可能 是 有 优势 的。
我 觉得 开源 模型 如果 在 2024年 说 要 追到 G T4, 我 今天 看 可能 还是 有 挑战 的。 我 觉得 拉姆 团队 可能 人才 密度 不够, 可能 很多人 2 ch 问题 可能 现在 还没 搞清楚。 当然 我们 不能 低估 技术 开源 和 技术 扩散 的 力量。 我 觉得 有可能 明年 整个 行业 都 进步 很大, 那 开源 也 追上去 了, 对 吧?
这 里面 还有一个 有意思 的, 我 觉得 大 模型 覆盖 小 模型 是 必然 的, 大 模型 是 小 模型 的 生成器。 你 比如说 open I train model 的 能力 就 很强, 它 可以 存 100个B300B 的 模型, 只是 说 优先级 去 趁 大 的 模型, 但 它 趁 小 模型 的 能力 也是 很强 的。 所以 你 比如说 之前 像 mr 它 有 7B的 模型, 可能 是 7B上 最佳 模型。 但 open 还有 可能 他 顺手 称 一个 可能 就是 碾压 mr 的。 所以 你 比如说 之前 我们 看 myr 融资, 我 觉得 也是 很难 做决定 的。 因为 它 就 面临 一个 被 大 的 模型 公司 覆盖 的 风险。
然后 我 觉得 下一个 开源 模型 重要 的 方向 就是 端 侧。 然后 端 侧 有一个 很强 的 就是 能把 A I 公司 的 成本 结构 发生 很大 的 变化。 他的 推理 成本 可以 放到 端子。 这个 最 期待 明年 苹果 手机 能 在 内存 上 有 一些 大 的 变化。
如果你说 长期 格局, 我 觉得 有 两种 可能。 一个 是 大 模型 公司 向下 覆盖。 就 你 比如说 你可以 理解 S P C E X, 它 也 做了 播音 和 攻克 的 市场, 它 也 做了 tesla 的 市场, 这 很 像 交通 出行 市场 一样。 另外一个 可能 就是 分层 的, 每个 交通工具 都是 独立 的, 我 觉得 这也是 一个 开放式 问题。
多 模态 和 A 镇 会 怎么 进一步 发展?
可以 先 说 多 模态, 就是 多 模态 肯定 是 明年 各家 大 模型 公司 的 重点 吧。 我 觉得 核心 叙事 可能 就是 多 模态, 因为 google 真的 首先 它 已经 是一个 可 你 统一 输入 视频、 图片、 文字 都 不太 理解 的 一个 模型 了。 而且 它是 从头 推称 的, 这个 难度 我 觉得 是 很大 的。 然后 open 肯定 明年 也会 卷, 动态 能力 anthropic character 肯定 也会 投入。 我 觉得 这些 产品 加 了 多 模态 能力 之后, 短期 是 两个 方向, 一个 是 理解, 一个 是 生成。 但 长期 我 觉得 都 是一个 统一 的 模型, 输入 可以 是 多 模态 的, 输出 生成 也是 多 模态 的。
然后 你 比如说 最近 一段时间 视频 生成 很 火, 对 吧? 那 以前 图片 生成 是 diffusion model 效果 已经 很 成熟 了。 但 如果 在 diffusion model 上 加 一个 时间 维度, 现在 效果 还是 不错 的。 但 现在 主流 方案 只能 做到 几秒钟, 而且 是一个 动画 效果 的。 如果 真的 想 实现 更长 的 一个 视频, 更 复杂 的 动作, 我 觉得 还是 需要 技术 突破 的。 包括 diffusion 跟 transformer 也 不是 不 兼容 的。 其实 也是 可以 用 diffusive 的 方法, 结合 transformer 这些 架构 去 训练 模型 的。
其实 transformer 最好的 一个 特点 就是 它 容易 give up, 能把 模型 做 很大。 你 比如说 现在 视频 生成 模型 可能 最大 的 比如说 八个 B 那 未来 能不能 继续 也 像 大 语言 模型 一样 持续的 skill up, 这 可能 是 很 关键 的。 另外一个 你看 mr journey, 它的 效果 已经 很 好了, 但 你说 它 生成 的 图片 真的 智能 吗?
很多 多 模态 领域 还是 非常 值得 重点 投入 做 的。 你 比如说 帮 我 生成 一个 有 逻辑 的 P P T, 帮 我 生成 一个 有 逻辑 的 连环画。 就是你 比如说 未来 到底 是一个 单一 模态 的 还是 一个 综合 模态 的。 我 觉得 综合 模态 它 有 很强 的 语言 理解能力 和 逻辑 能力, 有可能 它 生成 的 图 和 视频 是 更 聪明 的。 就是 你是 需要 一个 纯粹 只有 更 美的, 还是 需要 一个 聪明 的。 但是 又 美 又 聪明 的 肯定 是 最好的。
另外 一个点 就是 真的 多 模态 模型 训练 难度 其实 非常 大 的, 需要 的 G P U 更多。 所以 我 觉得 明年 的 G P U 肯 还是 非常 精确 的。 还有一个 有意思 的 就是 训练 数据。 大家 都 觉得 youtube 上 数据量 很大, 对 吧? 但 其实 这个 数据 是 很难 用到 训练 的。
因为 视频 的 信息 密度 不够 稠密, 本身 没有 语言 蕴含 的 知识 量 多。 其实 你看 人类 的 语言 发展 了 几百年、 上千年, 语言 知识 本身 就是 对 现实 世界 的 一些 图像, 所以 本身 就 蕴含 了 一定 智能。 所以 从 语言 里面 衍生 出来 智能, 我 觉得 是 有 一定 道理 的。 包括 视频 的 token ized 其实 是 很难 的, 就是 跟 文本 也 不一样。 就是 怎么 比较 高效 的 提取 出来 视频 的 关键 信息。 你 比如说 忽略 一些 背景? 关注 本身 物体 的 变化, 这 里面 还是 有 很多 技术 要 做 的。
还有一个 有意思 的 就是 是不是 存在 单一 模态 的 模型, 你 比如说 miss journey 是不是 会 独立 存在? 视频 生成 模型 会不会 独立 存在, 我 觉得 也是 存疑 的。 就是 视频 生成 未来 一年 的 效果 肯定 会 非常 好, 就像 今年 图像 生成 效果 一样。 这个 V 一到 V 6卷那么 多, 对 吧? 但 我 觉得 长期 依然 还是 不清楚 的。 他 也 面临 一个 会不会 被 更强 的 模型 公司 覆盖, 技术路线 也有 变化, 到底 是 diffusion 还是 transformer。 但 我 觉得 transformer 这条 线 肯定 是 更容易 give up。
包括 视频 生成 的 商业 逻辑, 我 觉得 无非 就 两条, 一个 是 像 adobe 一样 走 enterprise 让 企业 付费。 一个 是 走 tiktok 像 剪 映 一样 跟 内容 平台 结合。 所以 今天 商业模式 还是 不清楚 的。 另外 你 比如说 agent, agent 这个 概念 在 国内 被 炒 的 是 比较 火 的对, 但是 今天我 很难说 出来 说有 哪一个 产品 是 agent role model, 是 没有 一个 标杆 产品 可以 成为 一个 agent 标杆 产品 的。
我 觉得 agent 大 爆发 最 核心 的 一个 还是 底层 模型 的 reasoning 推理 能力 要 上来。 你 比如说 如果你 推理 的 准确性 是 90%, 如果你 做 十步 推理, 那 有可能 这个 准确率 就 降到 30%到50% 了, 那 这个 可靠性 就 非常低 了。 所以 reasoning 推理 能力 可能 是 非常重要 的, 包括 模型 的 推理 速度。 如果 你的 推理 速度 很快, 那你 agent 做 很多 步 的 推理, 那 我 觉得 也是 非常重要 的。 Agent 肯定 是 长期 很 重要 的, 但是 第一 是 取决于 模型 能力, 第二 是 这个 时间点 很 重要。 这 可能 是 应用 开发者 未来 要 好好 想 的 机会。 对。
我 听 下来 你 整体 还是 觉得 模型 越 大越 好。 因为 模型 越大 它的 reasoning 的 能力 越 强。
绝对 的 同样 的 数据, 同样 的 G P U, 你 把 参 数量 扩大, 它的 reasoning 能力 就是 提升 的。 然后 同样 的 参数, 你 给 更多 的 数据, 给 更多 的 G P U, 它的 也 更 聪明 了。 我 觉得 今天 来讲, 你 只要 give up, 目前 效果 确实 是 变 好的。 至于 哪天 停下来 不知道, 今天 起码 最 领先 的 公司 也没有 摸 到 transformer 的 天花板。
那 你怎么看 那 一波 就是 有 一波 国内 的 创业者, 他们 觉得 模型 不需要 越 大越 好 这 一派 的 观点。
我们 有一个 P6 它是 一个 问答 引擎。 今年 他 也 出了 一个 自己的 模型, 覆盖 了 很大 比例 头部 用户 的 query。 所以 我 觉得 需求 是 分布 的, 有 一些 query 需求 并不需要 capability 很强 的 模型。 我 觉得 用 小的 模型 覆盖 是 没问题 的, 而且 这个 成本 优势 更强。 我 觉得 这个 是 make sense 的。
不一定。 很多 地方, 比如说 我 从 北京 到 天津, 开车 和 高铁 都 可以, 没 必要 用 火箭 飞船 对 吧? 那 如果 从 北京 到 旧金山, 可能 如果 2个小时 的 space 送 过去, 那 其实 是 需要 capable ability 很强 的。 我 觉得 需求 是 分层 的。
这个 是 跟 他们的 自己的 业务 场景 匹配。
所以说 他们 这个 逻辑 也 对 这个 逻辑 从 成本 角度 我 觉得 是 make sense 的。 对我 觉得 从 成本 角度 是 立得 住 的, 但是 从 时间 角度 不一定 立得 住。 因为我 觉得 终极 状态 可能 就是 为什么 叫 foundation model。 这个 foundation model 大 的 模型 是 可以 生成 小的 模型 的。 然后 我 觉得 open I 未来 也是 一系列 的 模型 来 服务 客户 的。 它 有 大 的 模型, 有 中型 的 模型, 也有 小的 模型, 甚至 它 也有 端 侧 的 模型, 而且 覆盖 多个 模态。
输入输出。 我 觉得 最后 他 就是 一个 统一 的 入口 来 输入 最后 输出 最后 你 会 发现 open I 的 capability 能力 是 最强 的, 成本 也是 最低 的。 我 觉得 大 概率 是 会 这样的 结果。
那 我们 看 硅谷, 你看 它的 巨头 都 可能 要 自己 做, 要么 就要 控 一家 公司 或者 收购 一家 公司, 他 要 自己 掌控 这个 大 模型 foundation model。 那 其他 的 公司, 就是 比如说 第二 梯队 的 公司, 他们 跟 谁 合作 呢? 他们 不可能 每 一家 都 训练 一个 成本 这么 昂贵 的 一个 大 模型, 对 吧? 那 他们 也 需要 这样的 业务, 那 他们 跟 谁 合作 呢? 这个 生态 未来 会 怎么 转 起来?
你 比如说 so both 他们 投 了 antha 非 七 巨头 以外 的 其他 公司, 可能 就是 积极 拥抱 最 领先 的 模型, 然后 再 用 开源 模型 爆 改。 我 觉得 就是 首选 GPT, 其次 cloud, 然后 再 用 一个 拉马。 我 觉得 是 现在 很多 硅谷 sas 公司、 data 公司 在 尝试 的。 这 就是现在 大家 的 一个 状态。 但 你说 今天 大家 尝试 出来 太多 的 结果 了, 我 觉得 好像 还没有 看到 谁 推出 来 特别 叫好 叫座 的 产品 了。 那 这个。
GPT 迭代 到 什么时候 就能 算 够了 呢? 它 会 一直 这么 迭代 下去 吗? GPT5 大概 什么时候 能 达到?
我 觉得 2024年 应该 能 看到 GPT5。 我 觉得 模型 迭代 是 停不下来 的, 而且 我们 从 method 上 来讲, 也 不应该 把 模型 训练 当做 capex 而是 把 它 当做 研发 的 R N D 投入。 我 觉得 模型 训练 更 像是 研发 的 R N D 投入。
人类 对 智能 的 追求 我 觉得 是 停不下来 的。 除非 说 哪天 这个 技术路线 遇到 瓶颈 了, 你 再 投入 很多 钱, 智能 效率 的 提升 不高 了, O I 很低 了, 我 觉得 是 有 这种 概率 的。 比如说 明年 数据 不够 用了, 然后 G P U 连到 几万 张, 你 想 连 几十万 张, 一个 集群 连 不动 了, 有可能 能源 有问题, 带 不动 几百万 张卡 的 数据中心 了。
你 从 硅谷 回来, 然后 你 在那边 待 了 差不多 半年, 因为 什么 状态。
能 描绘 一下。 我 觉得 硅谷 V C 也 挺 难 的, 就是我 觉得 硅谷 V C 最大 的 竞争 压力 来自 于微软 和 open I, 我 觉得 微软 和 open I 有可能 会 把 很多 软件 的 生意 都会 做 掉。 因为 硅谷 V C 之前 投 软件 投 的 还是 挺舒服 的, 我 觉得 A I 有可能 会 把 很多 传统 软件 的 形态 都会 吃掉。
另外 就是 刚才 咱俩 聊到 传统 V C 这个 金融 产品 在 A I 领域 投资 是不是 还 work, 这 里面 也是 一个 有意思 的 话题。 你看 多数 V C 其实 错过 过了 curt o, 也 错过了 tesla species, 对 吧? 这种 很重 没有 商业模式, 风险 很高 的, 我 觉得 可能 就是 类似 科学 方向 的 投入, 我 觉得 也 有点像 以前 的 曼哈顿计划。 其实 微软 我 觉得 有点像 美国 的 国企 了。 他们 来 投入 是 很 excise 的 举国体制, 我 觉得 硅谷 V C 也 不太 清楚 未来 走向。 其实 大家 有时候 心里 也 有点 模糊, 你说 哪家 V C 手上 有 船票, 拿到 新的 A I 船票, 我 觉得 好像 也 不多。
另外 一个点, 如果 从 典型 V C 的 角度, 我 觉得 硅谷 的 好 项目 还是 很多 的。 但是 估值 我 觉得 又 很高。 我 觉得 短期 肯定 是 有 overhead 的, 过去 半年 我们是 没有 新的 出售 的。
我 最 欣赏 的 一个 硅谷 A I 投资人 是 net fridman, 他是 github 的 前 C E O。 我 觉得 net 做 的 AI grant 已经 在 A I 领域 完全 超越 Y C 了。 他 很 早期 就 投 了 character 和 popular。 我 觉得 是 硅谷 A I 投资人 里面 投票 的 质量 最高 的, 而且 影响力 也是 最大 的。 可能 比 很多 传统 硅谷 V C 的 position 要好。
他是 作为 个人 投资者。
投 的 还是 全 是 个人 的 钱。
那 V C 产品 怎么办 呢? 应该 怎么 改进 呢? 这 波 A I 投资 能 反映出 V C 的 这个 产品 本身 有什么 缺陷?
你 比如说 之前 的 生产资料 是 土地, 所以 黑石 靠 地产 这个 asset 就 做得 很大, 对 吧? 那 现在 的 关键 生产资料 可能 是 G P U, 但 A I 公司 没 那么 多 钱 买 G P U, 那 G P U 又 变成 了 一个 类似 土地 的 生产资料。 这个 就是 新的 S I class, 这个 有可能 就是 新的 债 的 金融 产品 出来 的 机会。
我 觉得 V C 这个 产品 肯定 不 适合 大 模型 的 投资, 但 A I native 应用 的 投资 可能 是 make sense 的。 我 觉得 V C 本质 还是 一个 概率模型。 因为你 一个 基金 投 三五10个PF6, 最后 可能 还是 power law 有 三五个 好的, 对 吧?
我 觉得 这个 本质 问题 还是 说 今天 的 A N A tape 应用 没有 爆发。 所以 硅谷 V C 也 比较 散粉, 没有 赌 到大 的 机会。 因为 第一波 就是 模型, 而且 今天 依然 还是 投入 模型 卷 模型 的 时间。 那 有可能 明 年底 AI native 应用 开始 爆发, 那个 时候 有可能 更 make sense 了。
只是 说 这个 阶段 投 模型 本身 不太 make sense, 所以 你看 硅谷 很多 V C 没有 投 character。 Character 最 早期 讲 的 模型 A G I 的 故事 让 大家 觉得 看不懂。 后来 讲 产品 故事, 大家 觉得 产品 成长 空间 和 天花板 好像 看不到。 然后 现在 又 回来 讲 模型 的 故事, 那 估值 又 很高 了, 几十 亿美金, 大家 好像 又 觉得 也没有 信心。 我 觉得 对。
所以 硅谷 投资人 跟 中国 投资人 一样 难 是吗?
我 觉得 会 更 乐观 一些。
情绪 乐观 一些。
情绪 更 乐观 一些, 而且 更 分散。 虽然 充分 竞争, 但是 赚 到 钱 的 投资人 还是 更多 的。
你说 在 之前 的 周期 里。
还是 这 在 之前 的 周期 里, 而且 硅谷 的 整个 基金 生态 我 觉得 是 非常 的 繁荣, 那个 土壤 还是 包容 犯错, 而且 包容 fundamental 的 投入。
对 2024年 2025年 的 大 模型 战局 也能 做 一些 预测。 包括 什么时候 会 迎来 应用 的 大 爆发, 哪些 可能 的 应用 方向, 有 哪些 猜想? 对于 巨头 或者 国家 来说 有没有 大 模型? 大 模型 的 成 与 败 意味着 什么?
比如 应用 大 爆发, 我 觉得 再选 个 1到2代, 可能 卷 过 GPT4.5, 再 卷 到 GPT5, 那 没 必 明 年底 那个 时候 应用 大 爆发, 我 觉得 是 有 一定 可能性 的。 应用 方向 还是 挺 难 预测 的, 就像 乔布斯 当年 也很 难 预测 tiktok 能 这么 火, 对 吧? 我 觉得 更多 的 应该 关注 技术 来 刺激 的 新 需求。 你 比如说 短 视频 就是 手机 技术 和 网络带宽 技术 刺激 出来 的 增量 的 需求。 我 觉得 格局 也 挺 难 准确 预测 的, 影响 因素 很多, X A I 和 by dance 有可能 是 黑马。
你说 对 巨头 的 影响, 我 觉得 可能 会 很大 的。 就是 一个 国家 如果 没有 电 和 能源, 以前 会 怎么样? 我 觉得 未来 20年 A I 创造 的 直接 增量 G D P 可能 是 比 互联网 过去 20年 创造 的 增量 gdpr 要 大个 5到10倍。 你 就算 一个 账。 如果 这 一波 A I 是 替代 十亿 白领, 每个 白领 工作 年薪 是 3到5万美元, 这就是 3到50万 亿美元 的 mark size。 如果 全球 GDP 翻倍, 那就 是从 今天 的 96万亿美元 变成 200万亿美元。 那 增加 100万亿AI take rate 10%到20%, 这也是 一个 10到20万 亿美元 的 revenue。 Multiple 乘以 10, 我 觉得 会 诞生 很多 大公司 的, 我 觉得 是一个 粗略 的 算法。
还有一个 就是 明年 数据中心 的 用电 肯定 会 提升 非常 多。 有可能 今天 可能 数据中心 的 用电量 占 人类 总 能源 的 2%到3%。 我 觉得 未来 涨 到 10%到20% 是 可预见性 也 蛮高 的, 所以 走到最后 可能 又是 能源 的 竞争。
插 一个 话题, 你 觉得 车 企 应该 怎么 利用 大 模型。
怎么做 A I 我 觉得 自动驾驶 还是 A I 落地 最 清楚, 确定性 最高 的 一个 产品, 而且 商业模式 很 清楚。 你 比如说 如果 真的 有一个 A I 的 司机, 我 每个 月给 他 付 个 500块钱, 1000块钱, 我 很 愿意 的。 我 觉得 有可能 自动驾驶 是 车 里面 智能化 最 关键 的 明珠。 因为 其他 的 交互 娱乐 可能 还是 小 事情。 但 自动驾驶 经历 了 一个 1718年 的 高峰, 过去 几年 有 一些 低谷, 反而 在 低谷 的 时候 更 应该 重视 他们。 其实我 觉得 自动驾驶 是 经济 价值 是 非常 清楚 的 一个, 而且 对 能源 是 有 很大 的。 如果 自动驾驶 实现 了, 我们的 能源 利用率 可能 会 提升 非常 多, 可以 更好 的 规划 了。
我 觉得 自动驾驶 全面 落地 是不是 比 A G I 来 的 会 更快? 其实 自动驾驶 的 安全性 上 已经 全面 鄙人 安全性 要 高了。 但是 大家 的 担心 saft 问题, compass 问题是 很高 的。 我 觉得 自动驾驶 是 没有 像 Chat GPT1样 出圈儿, 大家 有 很多 的 担心, 对 吧? 当然 还有一个 是 成本 的 问题, 我 觉得 tesla 这种 方式 有可能 是 能 在 局部 区域 明 后年 带来 大规模 落地 的。 对, 因为你 比如说 你 从 三藩 开 特斯拉 去 帕劳 头, 其实 接管 率 是 很低 的, 其实 你可以 充分 放手 了。
我 突然 想到 马斯克 他 有 X A I, 但 国内 的 这些 车 企, 其实 跟 大 模型 公司 结盟 的 还 挺 少 的。 他们 俩 还有 结合 的 可能性 吗?
我 觉得 车 企 下一步 做 机器人 是 非常 make sense。 如果 考虑 大 模型, 我 觉得 车 企 车 里面 的 娱乐 终端 有可能 考虑 接, 这是 比较 自然 一点, 更多 还是 一个 类似 百度 音箱 助理 的 这种 感觉, 更 聪明 了 一些。
大 模型 能 帮助 他的 路线 规划。
我 觉得 是 有可能 的。 模型 能力 很强 了 以后, 带来 的 语言 转化成 coding 能力 会 很强。 你 比如说 这个 小孩 没有 做完作业, 不让 他 看电视, 他 可以 实时 生成 这个 feature。 那 车 里面 的 一些 路线 规划, 我 觉得 也是 可以 实现 的。 你 比如说 遇到 什么 情况下, 你 帮 我 怎么着, 然后 你 直接 给 他说 了, 也许 就可以 了也 不用 再 开发 这个 功能 那个 功能 了。
有可能 对 这个 驾驶 终端 的 利用率 会 更高。 更有 一个 好处 就是 它的 体积 足够 大, 观测 的 算 力 是 很强 的, 所以 是 能 做 运算 的 东西 很多 的。 它 又有 电 又有 算 力。 如果你 部署 自动驾驶 的, 我 觉得 它的 实时性 可能 不一定 能 满足要求。 但是 你 部署 一个 娱乐 的 和 生活 助理 的, 我 觉得 也是 有可能 的。 所以 apple 跟 tesla 我 觉得 还是 蛮 有 优势, 我 觉得 明年 开源 在 卷端 测 应该 还是 有 优势。
说 点 好玩 的话, 你 在 硅谷 有什么 有意思 的 事儿? 就 比如说 你说 硅谷 投资人 很 safer 是我 没想到 的。
有 一些 投资人 是 萨芬, 有 明显 不同 的 就是 更 尊重 科学家 文化。 硅谷 公司 更 注重 fundamental 的 投入, 而 不是 一些 小的 feature 上 卷来卷去。 他们 更更 喜欢 所谓 的 结构性 的 创新, 能 在 一个 领域 做 一些 大幅 的 突破 的。
另外一个 有意思 的 就是 很多 小的 A I 产品, 它是 很 容易 做到 5到10个 命令 的 A R 的。 用 三五个 月 的 时间, 我 觉得 这个 A R 增长 的 速度 好像 比 之前 的 SaaS 还要 更快。 因为 所有的 基础 管道 现在 比 以前 要 更 通畅 了。 移动 手机? 还有 P C 电脑 这些 基础设施 是 比 以往 更好 了。 有可能 移动 互联网 这场 仗 打了 8到10年, A I 这场 仗 有可能 是 3到6年 就 结束。
可能 是 更快 的, 不 应用 端的 也 结束了。
这么 快。 对, 那么 快 有可能 是一个 20年 的 事。
你说 这个 就是 家的 应用 是 吧?
我 觉得 可能 长期 的 改造 是 可能 很 长时间 的 事儿。 我 觉得 模型 这场 仗 有可能 明年 就 打 完了。
明年 你 有什么 期待 的 事儿?
我 觉得 如果 明年 再不 出来 几个 所谓 的 super APP, 大家 会 失去 信心 的。 你 比如说 super 起码 能 做到 几千万 的 D E O 大家 能 看到, 而且 有 好几个 有 更多 的 应用 端的 公司 能 做到 5到10亿美元 的 A R, 这是 会给 投资人 更多 的 信心 的。 今天 还 太少 了, 明年 还是 期待 看到 三五个 super APP 能 出来。
对 我们 刚才 聊 的 这些 明星 的 公司 和 产品, 你 觉得 这 一波 创业者 他们 有什么 共性?
我 觉得 从 模型 公司 来看, 一个 模型 公司 最 重要 的 是 有有 至少 有一个 天才 的 科学家。 你 像 欧派 有 伊利亚, 还有 好几个 类似 伊利亚 一样的 人, and sorry, 有 达 reo, 还有 其他 几个人。 包括 你看 runway, 他的 C T O 也很 有意思。 然后 包括 google 出来 的 idio gram, 他们的 C T O 装 next 号 也很 厉害, 是 diffusion 这块 贡献 很大 的。 你 包括 皮卡 lives, 他们的 C T O 陈琳 在 division 这个 方向 也是 很 厉害 的。 我 觉得 看 一个 模型 公司, 看 他 那个 天才 researcher 是 最 重要 的。
不一定 是 C E O, 但是 一定 得 有一个 科学家。
这样的 人 不一定 是 有。 我 觉得 上半场 科学家 是 最 重要 的, 而且 科学家 文化 持续 不断 的 探索 做 实验 是 最 重要 的。 对 下半场 有可能 是 商业 和 应用, 但是 未来 做出 好的 应用 到底是什么? 画像 的 产品 经理, 就是 所谓 的 下一个 移民 和 王兴 到底 是 什么样 的? 我 觉得 有可能 是从 researcher 背景 出身, 也有 可能 是 其他 背景 出身, 我 觉得 还 不知道。
而且 可能 中国 和 美国 有点 会 有点 不一样。
对我 觉得 区别 还 挺 大 的。 有可能 在 美国 那边 模型 就是 应用, 没有 专门 的 应用 character。 你说 它是 模型 公司 还是 应用 公司? 用户 来讲 它 就是 一个 应用 公司。 但是 应用 的 99% 的 体验 就是 模型 来决定 的, 他 一定程度 上 他 也是 模型 公司。
对, 其实 你看 他 团队 的 人 核心 都是 来 B U 的 模型 的。 你看 过去 一年 当中 可能 有 几百个 团队 想做 character 这个 方向, 但 好像 只有 mini max tok 做好 了。 因为 mini max 有 自己的 模型, 所以 你看 用 lama 开源 的 模型 做 character 效果 是 不够 好的。 但 欧洲 还有一个 菜, 做 的 也 还 可以。 我 觉得 有可能 模型 及 应用, 应用 体验 直接 由 模型 决定, 有可能 这 是一个 挺 重要 的 点的。
国内 会 是 这样 模型。
及 应用 吗? 我 觉得 国内 会 把 产品 和 场景 定义 有可能 会 做 的 更好, 去 在 模型 之上 加 更多 的 东西, 这也是 一条 路线。 然后 你 比如说 character, 你 有 更 广泛 和 灵活 的 能力, 你 创建 任何 的 角色, 所以 你的 多样性 和 长尾 是 会 非常明显 的。 但是 很多人 有可能 也 不需要 多样性 和 肠胃, 他 就 需要 几个 头部 的, 他 去 需要 一个 最 漂亮 的 或者 最能 讲故事 的, 有可能 也能 满足 很多 用户 的 需求, 他 也能 满足, 他 也能 做到 一定 用户 体量, 我 觉得 也是 有。
机会 的那 国内 强硬 用 的 这条路, 需要 自己 一定 有 模型 吗? 像 朱 小武 说 在 别人 的 地基 上 做 房子 可以吗?
我 觉得 要 做到 基础 模型 公司 做不到 的。 你 比如说 iphone 也 做了 摄像头, 但是 抖 音 依然 做得 更好。 你 像 iphone 也 做不了 打车, 我 觉得 还有 很多 事 是 模型 公司 也 做不了 的, 可能 还是 有 机会 的。 然后 比如说 行业 的 know how.
垂直 模型 的 空间 有 多大。
我 觉得 有可能 不存在 垂直 模型。 因为 一个 领域 它 可能 没有 足够 的 训练 的 token 量 来 支持 训练 一个 垂直 的 模型。 因为 模型 要 满足 scaling law, 那 需要 的 数据 是 无限 多 的 数据, 垂直 领域 有可能 没有 几个 锤炼 的 token 来 支持 训练, 他 可能 很快 就 停下 了。
那 我 觉得 未来 有可能 就是 通用 的 模型, 它 变成 一个 非常 厉害 的 推理 引擎。 这个 推理 引擎 渗透到 各行各业 当中, 就 很 像 搜索 一样。 Google 做了 通用 搜索, 但 你看 视频 搜索 也 做得 很好。 然后 电商 商品 的 搜索, 其实 google 也 吃 了 很大 的。 虽然 他他 没有 做 电商, 但是 你 比如说 自 建站 电商 的 流量 很多 都是 google 来 分发 的。 他 也 吃 了 很多 电商 的, 包括 旅游产品 的 搜索, google 其实 也 吃 了 很多。 但 你看 国内 反而 就 很 分散。
百度 做了 通用 搜索, 但是 美团 做了 本地 生活 的 搜索, 携程 又 做了 旅游产品 的 搜索, 小红 书 的 生活 搜索, 我 觉得 也 非常 好。 淘宝 做了 最 肥 的 一块 店 商品 的 搜索。 其实 百度 跟 google 同样 都是 搜索, 但 百度 失去 了 很多, 对 吧?
我 觉得 这也是 一个 如果 一个 行业 的 进入 壁垒 很高, 那 有可能 会 存在 垂直 的 应用 场景 解决方案 公司。 但 我 觉得 不一定 存在 垂直 的 基础 模型 公司。 对 基础 模型 未来 可能 还是 一个 通用 的 技术, 就像 搜索 一样, 门槛 很高。 国内 的 技术 辨识度 低, 所以 有可能 会 更 分散 一些。 各行各业 可能 会有 一些 垂直 解决方案 公司 出来。 对, 就 美国 的 技术 辨识度 很高。 那 有可能 你看 google 就 把 很多 行业 的 搜索 都 做了, 你 包括 你看 微软 几十年 必应 都想 抢 google, 一直 都还没 抢过去。
我是 感觉 好像 有 两派, 你是 相信 大 模型 的那 一派, 国内 也有 一派 是 就 不相信 了。 大家 还是 觉得 还是 做 垂直 模型 靠谱。 你 周围 接触 的 人 哪种 多。
我 接触 的 researcher 最多。 这些 researcher 都是 一手 做 实验 的, 这些 researcher 也是 相互影响, 有可能 相互 加强 的。 所以 他们 更有 信心, 所以 传导 到 我们 这里 更有 信心。 我 觉得 第一 是 相信 科学家, 第二 相信 最 一线 的 公司 他们的 动作, 相信 这 一波 技术 长期 的 power, 短期 的 噪音 肯定 是 很多 的, 当然 不 排除 这 一波 技术 会 失败, 我 觉得 失败 概率 还是 蛮高 的这 1000亿美元 投进去, 哪天 数据 不够 用了, power 不够 用了, skin law 不 work 了, 我 觉得 都是 有可能 的这。
是 坏 语气。
对, 有可能。 比如说 skill 到 2026年、 27年 有可能 不 work 了, 也是 有 概率 的。 或者说 未来 参 数量 到 几十个 锤, 再 往 上 提升 效果 就 不大 了, 那 我 觉得 就 遇到 瓶颈 了。 起码 从 今天 我们是 没有 看到 transformer 这个 架构 的 天花板 的, 欧派 也是 没有 摸 到 的。 所以 我 觉得 在 没有 摸 到 之前, 我们 就是 要 积极 拥抱, 去 相信 他 还有 路 可以 走。 而且 目前 还没有 看到 其他 路径 比 transformer 的 训练 和 智能 效率 更高。 但 有的 其他 的 架构 是用 小量 的 数据 可以 有 更好 的 训练 效果, 但 不 skill up。 目前 transformer 和 skin law 是 走向 A G I 最有 可能 的 路径, 还没有 第二个 其他 路径。
能 不能说 三条? 你 觉得 是 今年 最大 的 噪音?
第一个 噪音 就是 大家 对 复刻 H D 4想的 太 简单 了, 大家 觉得 GPT4 很快 会都 超越 了, 我 觉得 是 比较 难 的。 第二个 噪音 就是 所有人 都 去做 一个 chat 产品。 但是 长期 来看, ChatGPT 和 character 这 两个 产品 形态 一定 对 吗? 我 觉得 有可能 还 会有 更多 的 更 重要 的 产品 形态, 大家 还没 探索 出来。 有可能 这 两家 公司 会 把 大家 带到 一个 坑里。 因为他 两家 是一个 模型 公司, 不是 一个 应用 公司。 大家 都 把 ChatGPT 和 character 当 应用, 我 觉得 这就是 噪音。 其实 他 两个 是 模型 公司。 我 觉得 第三个 噪音 是 大家 Y Y 太多 了, fax 比较 少。
Open I 刚 经历 了 政变 以及 sam 奥特曼 的 回归, 你 在 硅谷 有没有 了解到 关于 这 起 事件 的 更多 信息? 你怎么看 这 起 事件? 就 这 起 事件 对于 大 模型 的 产业 意味着 什么? 你 觉得 sam 回归 后 及 董事会 换血 后 的 open I 下一步 会有 什么样 的 值得 期待 的?
如果 把 我 换 到 open I 的 员工 上, 我 肯定 也是 跟着 sam。 因为我 奋斗 了 好几年 的 股票 只 跟 sam 有关。 Sam 如果 不在, 那 我 努力 了 几年 的 股票 就 黄 了, 因为 大部分 的 激励 都是 靠 股票 的。 然后 微软 这边 的 合作 也都 是 sam 来 主导 的那 微软 C T O Kevin scot 也是 赌 上 职业生涯 来 力挺 sam, 这 是一个 利益 的 问题。 为什么 七百多 良将 都 一致 跟随 sam 对 吧?
至于 sam 为什么 被 开 掉, 至今 是 没有 任何 解释 的。 如果 阴谋论 的 讲, sam 肯定 是 做了 很 激进 的 事儿, 不然 不至于 一个 董事会 会 把 一个 C E O 给 开 掉。 但 这个 激进 的 事 肯定 还 不能说, 所以 大家 就 自己 想 到底是什么 事, 而且 这个 事儿 有可能 跟 微软 有关, 起码 目前 欧 盘 是 没有 人才流失 的, 我 觉得 这是 很 难得 的, 大家 都说 更 团结 了, 好像 A G I 只 耽误 了 四五天。 我 比较 好奇 伊利亚 后面 会 怎么样, 她 现在 好像 不怎么 在 办公室 出现了, 那 我们 肯定 是 希望 伊利亚 继续 留在 欧 盘, 他 还是 一个 挺 值得尊敬 的 一个 优秀 科学家 的。 如果 欧 盘 损失 了, 他 肯定 还是 挺 大 的 损失 的。
还有一个 有意思 的 就是 sam 跟 乔布斯 和 马斯克 好像 不太 是 一类 人。 乔布斯 和 马斯克 好像 在 硅谷 没有 朋友, 但 sam 在 硅谷 所有人 都 是朋友。 然后 你看 sam 去 国会 问询 的 时候, 跟 国会 的 议员 都 是朋友。 所以 我 感觉 sam 很 像 这 是一个 政客。 如果说 A G I 真的 实现 了, 他 还有 他的 发 的 那个 world coin 那个 B 你说 sam 会 是一个 新形态 的 总统 吗? 我 觉得 赛马 像 政客。
他 之所以 是 硅谷 人脉 网 一个 原因 是不是 因为他。
之前 在外 对 Y C 这个 位置 很 重要 的。 Y C 还是 硅谷 创新 的 一个 关键 节点。
之前 你 对于 这个 产业 现在 最 想知道 的 一个 问题 是什么?
大 模型 native 产品 怎么 像 搜索 和 推荐 一样 做出来 数据 分 轮, 甚至 说 未来 有 网络 效应, 这是 需要 一个 类似 乔布斯 的 天才 产品 经理 来 设计 的。 我 觉得 大 模型 就是 新的 计算机, 你 怎么 把 这个 计算机 和 上面 的 生态 设计 好, 这是 需要 一个 很 综合 的 能力 的。
我 觉得 这 应该 也是 所有人 都 想知道 的, 也是 最 期待 的 一个 事儿。 对, 看看 明年 的 市场 走向。
我 觉得 还有一个 就是 transformer 就 等于 A G I, 这个 有可能 不一定 对, 只是 说 transformer 是 最 接近 A J I 的 一个 技术 路径。 但 因为 transform 本质 还是 一个 统计 概率模型, 它 还是 预测 下一个 token 的 这种 方式 来 预测 是不是 会有 瓶颈, 我 觉得 还是 一个 开放式 问题。 只有 走下去 才知道, 不走 下去 是 不知道 的。
那 像你 今年 会有 怀疑 自己的 时候 吗? 怀疑 这么 all in 的 投入 这个 赛道。
我 觉得 今年 特别 考验 学习 能力, 因为 技术 变化 太快 了, 我们 甚至 每周 都 有一个 读 paper 的 会, 因为 paper 里面 是 很 重要 的 一些 信息, 你 对 技术 判断, 我 觉得 今年 很大 的 一个 压力 就是 要 不断 的 学习。 肯定 也会 chAllenge 问 很多 问题。 但是 当你 看到 硅谷 那么 牛逼 的 公司, 那么 天才 的 科学家 都 一往无前, 很 相信我 觉得 从 他们的 眼睛 里 是 看到 了 光和 希望。
我 还有一个 比较 好奇 的 问题, 就是 如果 A J I 真的 实现 了, 对 地缘政治 会有 什么 影响? 你 比如说 大 模型 它是 融合 了 多个 语言 的那 会不会 带来 新的 文化 的 融合? 然后 你 比如说 翻译 产品, 同声 传译, 每个 人都 触手可及。 一个 中国人 是不是 可以 跟 一个 印度 民族 方言 的 人 谈恋爱? 我 还 比较 好奇 A I 变强 了 之后 会不会有 新的 消费 终端。
你 比如说 硅谷 有一个 A I P 就 戴 在 胸口, 那个 我 觉得 也 挺 酷 的。 它 可以 随时随地 的 access 最强 的 model, 其实 它 就 变成 了 X H P 的 一个 分发 渠道。 而且 它 还 可以 实时 的 帮 我 采集 很多 contest。 比如说 今天 我们俩 在 这儿 聊天, 那 可以 实时 的 就 整理 一个 会议 笔记 了。
我 还有一个 好奇 的 就是 中国 的 AI 创业者 怎么 做好 全球化? 这 里面 有 很多 文化 的 理解, 其实 很多 是 文化 产品。 海外 local 团队 的 信任 和 磨合, 进入 海外 市场。 Compass 数据 隐私 这些 问题 怎么 解决? 我 还是 很 期待 未来 三五年 会 跑 出来 新的 很大 量级 的 中国 团队 创办 的 全球化 公司 的。
我 就要 你 回答 一个。
你 回答 了 四个 了, 我 觉得 这 里面 开放式 问题 太多 了, 因为 有 太多 模糊 和 未来 的, 反正 我 觉得 都是 好 问题, 还有 我我我 在帮 你 想 问题。
好, 这 期 节目 就是这样。 如果 你喜欢 我的 节目, 欢迎 前往 苹果 podcast、 腾讯 新闻、 小宇宙、 喜马拉雅、 QQ 音乐 订阅 张小泉 商业 访谈录。 如果你 有 其他 想 邀请 的 嘉宾, 想听 的 内容, 或者 你 有 任何 想 探讨 的 话题, 都 欢迎 各位 听众 朋友们 在 评论 区里 留言。 我们 下期 再见, 拜拜。