用 声音。
碰撞 世界。
生动活泼。
欢迎来到 what's next 科技 早知道 第八 季, 和 全球 创新 第一 时间同步。
Everyone is great to be back .
at google I O today. Hello, 大家好, 欢迎来到 我们。
这次 的 科技 早知道。 这 周 又是 让 大家 非常 激情 澎湃 的 一周, Open AI4O 的 发布, 然后 又 紧接着 google I O 大会 发布 了 这个 extra power。 今天 就 赶紧 拉 了 几位 嘉宾 来 聊聊。 首先 这么 重要 的 话题 当然 少不了 我们的 主播 硅谷 徐 老师。 Hello 好, 也 好几个 月 没 来了, 我 感觉。
你好你好。 对 我们 那个 科长 的 不少 的 朋友 说, 好久 没有 来了。 所以说 前几天 跟 我说, 我 说好, 马上 要 来 跟 大家 来 谈一谈 最新 的 A I 的 动向。 然后 我们 这边 两位 嘉宾 其实 也 来过 科技 早知道, 都 是我 觉得 是 最有 发言权 的 两位 嘉宾。 丁 佳 你 介绍 一下 好了。
好, 另外 一位 是 之前 来过 我们 节目 的 A I 创业者, 这个 job right 的 创始人 郑 裕 典。 然后 他的 team 这次 也 参加了 这次 GPT4O 的 发布会 的 现场, 然后 一会儿 也 重点 请 他 来 帮 我们 聊 一 聊。 还有 一位 特别 重磅 的 嘉宾, 就是 最近 刚刚 在 香港 挂牌 上市。 然后 之前 其实 也 来过 我们 科技 早知道 前身 的 这个 节目, 叫 硅谷 早知道。 很多 我们 老 听众 知道 是 出门 问问 的 创始人 C E O 李志 飞。 志 飞, 先 恭喜 一下 你, 恭喜。
多谢。 大家好, 我是 2012年 回国 创业, 在 硅谷 google 做 那个 google translate 的 resort scientist, 主要是 做 算法 的那 我 回国 创业 其实 就是 当时 我们 公司 是 第一天 就有 一个 使命 的, 就是 要 定义 下一代 的 人机交互。 当时 定 这个 使命 的 原因 就是 因为我 觉得 在 移动 互联网 的 这个 时代, 这个人 根基 器 的 交互方式 可能 会 跟 以前 很 不一样。 因为 手机 屏幕 很小, 有时候 都 是在 室外 在 用, 不像 过去 坐在 家里 边, 坐在 电脑前面, 那 这个 时候 键盘 触摸屏 可能 比较 好, 对 吧? 所以 当时 我的 一个 很大 的 动机 就是说 我 希望能够 在 移动 时代 能够 定义 一个 一种 新的 人机交互 方式。 这个 人机交互 方式 其实 就是我 认为 最 自然 的 就是 自然语言 的 人机交互 方式。 所以 这个 是 我们 当时 创业 的 一个 背景。
然后 我 其实 回国 以后, 前 两年 就是 做了 这个 语音助手。 其实 我们是 当时 中国 第一个 在 微信 里边 直接 微信 公众 号 就是 一个 语音 搜索引擎。 包括 google glass 在 中国 的那 上面 的 语音助手, 还有什么 model 360的智能手表 上 的 这个 语音助手。
就是 我们 早期 2012年到15年 做了 很多 尝试。 但是 后面 也可以 给 大家 分享, 就是 我们 当时 做 云 助手 遇到 的 很多 的 体验 上, 商业 上 的 坑。 但是 做到 15年 就是 觉得 这个 东西 没有 商业模式, 做 一个 创业 公司 还是 得 有 商业模式。 所以 我们 开始 做 人机交互 设备。 当时 我们 本来 说 要 定义 下一代 人机交互, 结果 发现 人机交互 很快, 用户 就 习惯了 以前 那种 键盘 跟 触摸屏 的 方式 在 手机 上。 所以 我们 就说 我们 先 定义 下一代 的 人机交互 设备。 所以 就 手机 以外 的 设备, 我们 基本上 我 觉得 语音 交互 比较 重要 的 我们 都 做 过, 所以 其实 在 这方面 A I 怎么 跟 硬件 结合, 然后 我们 自己是 确实 是 通过 很多 坑。
然后 2020年 我们 又 开始 做了 第三个 事情。 就是, 那个 时候 我 就 觉得 这种 人机交互 也好, 或者 是 理解 识别 类 的 A I 其实 很难 商业化, 商业模式 很 糟糕, 用户体验 也 不好。 所以 其实 2019年 底 的 年会, 我 就在 公司 就 提出 说 我们 要 未来 重点 发展 生成式 的 A I, 我们 当时 做了 一个 产品 叫 魔音 工 坊, 就是 一个 给 内容 创作者 做 配音 的。 基本上 抖 音 里边 很多 电影 解说 都是 我们的 平台 上 的 创作者, 用 我们的 平台 工具 做出来 的。 所以 这个 产品 目前 来说 是 非常 成功 的。 中国 已经超过 一千多万 的 注册 用户, 接近 100万的 付费 用户, 营收 超过 一个亿 以上 一年。 所以 这个 可能 在 全球 范围内 都 是一个 非常 成功 的 AIGC 的 一个 产品。 就 是从 技术 产品 商业化 这个 闭环 是 做 的 还算 可以, 因为 我们 做 的 比较 早。 所以 现在 公司 其实 主要 就 两类 业务, 一个 就是 智能 硬件, 另外一个 就是 这个 A I 机器 的 模型 以及 这个 应用。
一点 也 给 大家 打个招呼。
大家好, 我是 喻 点。 我 之前 的 背景 是 A I 和 数据库 相关 的 博士。 之后 在 美国 就是 不同 量级 的 公司 都 待 过, 包括 twitter, newspeak, 主要 负责 其实 就是 推荐 系统 和 机器学习 架构。 然后 最近 一年 我也是 下场 创业 了, 然后 创办 了 一家 公司 叫 job right。 是在 美国 用 A I 帮助 求职者 显著 提高 找 工作效率。 比方 我们 可以 用 A I 做 海量 job 的 匹配, 然后 有 海量 求职 机会。 也可以 用 A I 自动 帮你 改 简历, 然后 自动 申请, 包括 帮你 mock interview 等等。
我 去年 其实 三月份 在 GPT4 出来 的 时候, 也 参加 过 科技 早知道。 时隔 一年 了, 很高兴 又 回到 了 科技 早知道 来到 solo 对, 很高兴 跟 大家 继续 聊 一 聊 最近 A I 的 发展 和 我 过去 几年 创业 用 这种 各种 模型 的 一些 经验。 对 嗯 哎。
那 一点 你 就 顺便 聊 一下。 这次 其实 你们 也是 被 open I 邀请 到 现场 参加 这一次 发布会 的, 能不能 帮 我们 讲 一下 现场 的 一些 感受?
好的, 现场 是 这样, 就 open 这次 发布会 其实 参加 的 现场 观众 不是 很多。 因为他 就在 他 自己的 办公室 那里, 其实 空间 也 不是 很大, 大概 也就 四十多个 人 参加。 然后 我们 邀请 参加 是因为 我们在 open a 的 一个 产品, 就是 GPT store 里 开发 了 一个 resume 的 一个 GPT store 的 一个 插件。 然后 这个 插件 是 被 open I feature 的, 是在 是 排 在前 十 的, 然后 有幸 被 邀请 过去了。
可以 看到 这次 发布会 其实 第一 就是说 他们的 C E O 萨姆 奥特曼 没有 参加, 没有 上台 作为 发言, 然后 基本 就是 在 底下 作为 听众 听 了, 然后 听 完 之后 就 立马 走了。 第二个 就是说 其实 这个 发布会 95% 的 时间, 其实 是 主要是 介绍 他 这个 4O的 模型。 这个 so 的 模型 你 拆开 看, 其实 最 主要 的 部分 是 O 这个 O 在 英文 就是 all 就是 简单 用 open a 官方 的话 说, 这是 他 最 先进 的 多 模态 的 一个 旗舰版 模型。
那 什么 叫 多 模态 的 一个 模型 呢? 大家 知道 之前 open I 的 模型 其实 主要是 以 文字、 图片 和 音频 为主。 那 这次 输入 的 时候, 这个 alminy 多 加 了 一个 dimension 叫 视频。 所以 就是说 它的 输入 可以 变成 文字、 图片、 音频 和 视频。 然后 输出 就是 除了 视频 之外, 其他 的 三个 维度 都能 支持, 就是 文字、 图片 和 音频。 这是 第一个 点, 就是说 它 能 输入 能 支持 实时 的 这个 视频。 第二点 最 关键 的 一点 也 是因为 它是 面向 开发者 的。 这个 模型 其实 不是 停留 在 demo 的 阶段, 它是 直接 开发 直接 release 出来 给 开发者 使用 了。
对, 这个 跟 之前 都 不太 一样, 这是 第一次 他们 直接 把 开发者 的 接口 同时 公布出来。
对 吧? 对, 非常 不一样。 而且 公布 的 一天, 因为 我们 也 测试 了, 现在 我们 第二天 就 直接 用 在 生产 的 线 上了。
我们 测试 结果, 第一 就是说 它 价钱 非常 合适。 因为 大家 都 知道 open a 有 两个 家族, 一个 是 3.5 家族, 一个 是 四 的 家族。 3.5 家族 以 便宜, 然后 以 量 大为 著称, 但是 它 整个 感觉 稍微 傻瓜 一点。 四 这个 家族 是以 贵, 但是 它是 以 比较 有 智能 的 一个 体现。 四 这个 家族 其实 整体 来讲 确实 是 又 贵 又 卖给 之前 给 大家 的 一个 体会 是, 所以 我们 之前 一直 在 用 它的 4特薄 模型。
这次 4O模型 发布 出来, 四 欧 模型 立即 变成 40个家族 最 便宜 的 模型, 它 比 四 车 模型 也 便宜 了 一半 的 价格。 所以 它 每 100万的 token 的 输入 时间 是 五美 刀, 然后 输出 大概是 15美刀。 这个 其实 是 比 4 turbo 有 一半 更 一半, 关键 它 还有 两倍 的 更快 的 一个 latency 的 提升。 当然 这个 在 实际效果 中 发现 确实 会 变快 了, 但是 也没有 两倍 这么 快。 因为 确实 刚 发布 的话, 大家 用 的 人 会 比较 多, 这样 open a 那边 自己 会有 一些 压力。 当然 它 公布 的 也有 个 五倍 的 更高 的 一个 速率 的 限制。
整体 来讲 这 款 模型 对于 开发者 来说 是 非常 友好 的, 而且 在 发布会 当天 就 公布 说明 确实 是 比较 有 底气。 但是 缺点 确实 是 目前 公布 的 A P I 确实 跟 之前 能 支持 的 维度 一样的。 所以 它 只是 支持 输入 是 文字 和 图像, 输出 只能 是 文字。 所以 它 在 demo 里 演示 的 这些 音频、 视频, 目前 在 A P I 并没有 公布。 当然 open 官 刚 说 in the coming weeks 就是 在 后面 的 几周 会 公布, 这样 我们 也 慢慢 拭目以待。 但是 实战 起来 它的 效果 是 非常 好的。 我也 看 了 很多 测评, 至少 比 它 贵 两倍 的 这个 4 top 模型, 在 很多 标 上 确实 都有 一些 提升, 至少 我们 测试 的 结果 也是 这样。 所以 我们 就 立马 把 它 推 上线 了。
对, 就有 便宜 的 又 快 的。
为什么 不用 呢? 是 当然 他 我 我 刚才 说 95% 都是 介绍 这个 4O, 也是 希望 开发者 更多 的 把 它 使用 到 自己的 产品 里。 当然 如果说 是 音频 和 视频 真正 推出 去了 以后, 我 觉得 会 大规模 的 加速 A I 的 应用 在产品 上。 因为 尤其是 多维度 你 产生 了, 所以 其实 可以 做 更多 更 有意思 的 事情。
一点 我想 问 你 一下, 就是 是你的 产品 帮助 大家 找 工作, 用了 很多 的 这些 OpenAI 的 A P I, 你 本来 我相信 里面 既有 用 四点, 也有 可能 有 3.5, 也有 一部分 是 有 3.5 的。 大概 多少 是用 3.5, 多少 14? 就 比如说 绝大多数 是用 3.5, 少数 是用 四 还是 一半一半 还是 怎么样。
其实 也是 跟 产品 的 自己的 呈现 给 用户 的 需要 有关, 包括 你 能 给 用户 带来 多少 价值。 然后 整体 来讲, 我们 现在 其实 用 3.5 的 量级 还是 远远超过 四 的。 因为 之前 我 讲 四 主要是 太贵 了, 因为你 现在 的 版本 4O都 比 3.5 贵 个 十倍, 之前 的 版本 都是 20 50倍 这样的 差距, 所以 其实 很难 接受 这么 大 的 差距。 所以 我们 之前 其实 接近 95% 其实 都 是用 的 3.5。 因为 我们 涉及到。
所以说 你说 这一次 用 four o 的 A P I, 所以说 主要 还是 那 5% 的 你 把 它 从 四 变成 4负O 了, 而 不是说 把 一部分 的 3.5 的 去 放到 4欧的 这么 一个 情况, 是不是?
是 这样, 就是 几个 月前 其实 有一个 拐点, 因为 open a 推出 了 一个 4 turbo 模型, 至少 比 4便宜 个 好 多倍。 所以 我们在 市 turbo 的 时候, 已经 把 一些 需要 简单 推理 的 一些 场景 迁移 到 4 turbo 了。 然后 大概 现在 线上 可能 有 大概是 70% 和 30% 的 一个 差别 了。 30% 用 的 是 四 这个 家族, 预计 到 将来 可能 我们 会签 更多 的 流量 过来。 因为 确实 整体 来讲 4O现在 来讲 所 具备 的 能力 确实 比 3.5 要 高 一大截。 但是 他在 这个 cost 上 也 不是说 特别 贵。 所以 我 刚才 为什么 说 后面 预计 到 我们 很大 很多 的 开发者 都能 从 这个 受益, 而且 很多 的 产品 也会 慢慢 用 这个 A P I 集成 在 自己的 产品 里。 觉得 这次 也是 欧普 爱自己 production 这个 多 模态 模型 的 一个 秀 肌肉 的 一个 操作。 就是说 一定 这个 模型 不是说 量级 特别 大, 因为 它 把 cos 控制 的 还是 挺 低 的。
因为 这次 open I 其实 也就是 提前 了 一天 的 时间 在 google I O 大会 抢先 发布 了 F O。 看 完了 这个 project extra 之后, 我是 觉得 如果 open I 晚 一天 发布 的话, 那 可能 大家 对 他的 惊叹 的 就 不太 一样 了。 发布 前瞻性 或者 它的 前沿性。 我不知道 大家 会不会 同意 我 这个 观点, 这个 志 飞 其实 在 NLP, 然后 在 人机交互, 在 虚拟 个人 助理 V P A 这个 领域, 其实 已经 深耕 了 有 十 来年 了。 我不知道 您 是 怎么看 的对。
就是我 觉得 首先 你说的 那 一点 肯定 是 因为 第一个, 尤其是 提前 一天 出来, 那 肯定 是 给 人的 冲击 是 完全 不一样的。 这个 消费者 就这样, 他是 很 贪心 的。 一旦 看到 了 他 就 觉得 这个 东西 是 大家 都能 做到 了。 所以 这个 也是 做 消费者 产品 很 残酷 的 一个地方。 一旦 你 比如说 你 后面 做 的 跟 他 差不多, 或者说 是 差一点, 或者 好 那么 一点点, 其实 对 消费者 来说 都是 无感。
然后 我 觉得 这个 发布会 第一个 就是我 觉得 人机交互。 首先 就是 这一次 的 他们 这 两家 公司 发布 的 这个 模型, 第一个 就是 多 模态, 第一个 就是 实时。 我 觉得 这 两个 东西 肯定 是 人机交互 里边 非常重要 的 两个 维度。 比如说 在 这 之前, 比如 多么 的 在 这 之前, 比如说 siri 也好, google system 也好, 包括 国内 的 各种 语音助手, 包括 我们的 语音助手, 基本上 就是 一个 语音 交互 的 系统。 它 不太可能 说 集成 图片、 什么 视频, 由于 是 更 不可能 在 一个 模型 里面, 但是 人的 这个 交互方式 就是 一个多 模态 的。
比如说 我 现在 跟你聊 天, 其实我 是在 一个 环境 里边。 这个 环境 我的眼睛 是 我在 跟你聊 天 的 时候, 我 同时 又 看到 那那 一盏灯。 或者说 是 甚至 如果我们 是 视频会议 的话, 我会 给 你看 音箱。 这就是 一个 典型 的 多 模态 的 交互 过程, 所以 过去 是 没有 这种 真正 的 多 模态 的 交互 的 这种 助理 的那 这次 我 觉得 就是说 他们 两个 一下子把 这个 感觉 已经 非常 好了。
但是 这个 是 有 很大 的 一个 问题, 就 这点 就是我 觉得 他 给 消费者 的 这个 期望 其实 是 给 的 非常 高 的。 对的, 然后 都 没有用 上大 的 一个 问题 都 太 像 这个。 就是 因为 消费者 他不懂 技术, 他 就 觉得 这个 东西 你 就 应该 跟人 一样。 这个 会 导致 一个 什么 问题 呢? 其实 当时 2011年 siri 刚 出来 的 时候 存在 同样 的 问题。 那 他他 当时 包装 是一个 很 懂你 有 情感 的 语音助手。
这个 google system 当时 那个 时候 叫 google now, 它 包装 的 是 说 我 这就是 一个 冷冰冰 的 工具。 你看 这 两个 产品 的 定位 是 很 不一样的, 对 吧? 那 其实 在 当年 那个 时候, google system 或者 google nar 我 认为是 定位 更加 好的。 因为他 就 告诉你 是一个 工具, 你 不要 来 调戏 我, 你 不要 expect 我 像 人 一样的 聪明。
但是 siri 导致 的 很大 的 问题 就是说 一 上来 就说 你看 我 很 聪明, 我 很 幽默, 对 吧? 那 导致 这些 用户, 你知道 你们 可以 猜 一下 用户 进来 问 都会 问 什么 问题。 我们 发现 很多人 他 认为 他 很 聪明。
最后 如果你 去 听 语音助手 的 前 十个 问题, 基本上都 是 一样的。 他 都是 为什么呢? 你 几岁 了? 你 爸爸 是谁? 你是 男 的 还是 女的? 我 漂亮 吗? 都是 这些, 他 把 这个 因为 其实 很多人 不知道 怎么 跟 A I 用 语音 进行 交互, 所以 他 就 把 这个 AI 当 作为 人, 或者 其实 他不知道 说啥, 对 吧? 所以 这是 我 觉得 他 这个 产品 的 定位。
如果 他 后面 真正 普通用户 去 用 的 时候, 不像 他 这个 演示 那么好, 那 这个 其实 是 一场 灾难, 而且 往往 就是这样 的。 因为 比如说 我 去 演示 我们的 语音助手 从来 都 不会 出错 的。 但是 一旦 我 把 这个 手机 跟 那个 给 对方 这个 听 的 人 说 你 自己 来 用 效果 极差。 而且 我 就 特别 紧张, 因为我 不知道 会 问 出 什么东西, 不知道 这个 A I 会 做 什么样 的 反馈, 对 吧?
所以 我 觉得 第一个 无论 还 其实 这两点 都 是啊 实时性 跟 这个 多 模态 把 用户 的 bar 对 这个 期望 提 的 很高。 但是 如果 后面 真正 用户 使用, 尤其是 普通 的 老百姓, 普通 老百姓 不是 我们 这种 科技 人士, 对 吧? 这种 宽 宽容性 很高, 也 知道 他 干什么 不能 干什么。 普通 老百姓 是 你可以 认为是 完全 不懂 的对 吧? 所以 这个 我 觉得 是 我自己 觉得 可能 我们 要 观察, 看看 是不是真的 当 一个 普 硅谷 以外 的 普通 老百姓 用 的 时候, 是不是 也能 用 像 这个 demo 里面 一样 用 的 这么好。 如果 能 用 的 这么好, 那 我 认为 人机交互 的 革命 就 来了。
人机交互 的 革命 来了, 我 觉得 真的 是。 如果你说 大 一点, 它 会 引起 下 一波 的这 整个 科技革命。 因为 你看 过去 的 很多 革命 都 是因为 人机交互 设备 或者 人机交互 的 这个 方式 变了 以后, 然后 就有 新的 产品, 有 新的 商业 场景, 就 会有 很多 新的 科技 公司 出来。
所以说 你 刚才 说到 的 就是 有 两点。 一个 是 多 模态, 是一个 比较 新的 一件 事情。 另外 是 低 延迟。 那你 在 说 多态 的 时候, 从 你的 角度 来讲, 这是 第一次 你 看到 一个 人机交互 是用 真正 的 多 模态 在 做 这个 for 这一次 的 demo, 这是 你说的。 但 同时 作为 一个 也是 这 一方面 的 老兵, 从 你的 个人 的 经验 来讲, 你 会对 他 是不是 真正 能够 适合 所有的 对话, 或者说 多数 老百姓 想要 讲 的 对话, 你 还是 持有 并不 乐观 的 并不 那么 乐观 的 一个 态度。
能不能 这么 理解? 对我 觉得 就 是从 时间线 来说, 我 认为 三年 以后 这个 东西 多 模态, 我 觉得 是 会 在 多 模态 本身 这个 事情 上, 我 觉得 是 基本上 在我看来 是一个 可以 解决 的 问题。 也就是说 三年 以后 我 能 想象 普通 老百姓 用 这个 语音助手, 用 这个 F O 他 可能 也 真的 是 能 用 的 这么好, 而且 他 就 形成 一个 习惯 去 用 它。 但是 你 去 如果说 期望 三个 月6个月 以后 就 能够 达到 这个 演示 里边 这些 人 那么 自由的 交流, 我自己 觉得 是 确实 我 觉得 不太可能 的。
不管 是 三个月、 六个月, 并 不是说 是 非常 近 的 未来 这是 一个多 模态 这一点。 然后 另外一个 你 觉得 有 比较 革命性 的 是一个 低 延迟 的, 能不能 展开 讲讲?
对, 就 低 延迟 的话, 因为 以前 大部分 系统 就是 所谓 的 这个 pipeline 系统 就 管道 系统 就是 一个 步骤 做 完了, 再 接下 一个 步骤 对 吧? 那 他 比如说 这个 语音助手, 最简单 的 就是我 先 有 唤醒, 就是 先 要把 这个 语音助手 给 唤醒, 有 语音识别, 把 这个 声音 转成 文字, 有 这个 自然语言 的 理解。 有了 这个 理解, 您 以前 的话 还要 去 找 答案。 比如说 你 找 川 贷款, 那你 把 理解 为 转成 一个 结构化 的 query 去 搜 数据库。 然后 这个 之后, 你 可能 把 他的 那个 东西 生成 一个 文本 答案, 用 T D S 把 它 发音 发出 来。 在 这个 过程中, 比如说 在 这个 交互 过程中, 可能 还 用到 这个 对话, 对 吧? 所以 它是 以前 的 语音助手, 是一个 大概 七八个 步骤 的 一个 过程。
首先 第一个 就是说 它 不是 端 到 端 的话, 它 会 导致 错误 的 错误。 比如 你 前面 语音识别 错了, 后面 大 概率 都会 错。 所以 你 想象 就是 八个 步骤, 假如 说 每一个 步骤 错误率 有 5%, 哪怕 那你 中 端 到 端的 错误率 可能 就 超过 50% 了, 对 吧? 所以 这是 以前 语音助手 为什么 这么 如此 的 愚蠢。
第二个 就是说 以前 比如说 以前 的 语音助手, 如果你 不用 大 模型, 导师 语音助手 也可以 差不多 就 实时 像 我们的 语音助手。 但是 它 不是 多 模态 的, 而且 它的 效果 不好。 就 刚才 说 很 蠢, 就 你 现在 能 做到 一个 实时 的, 用了 大 模型 的, 而且 就是 不 那么 准, 而且 是 多 模态 的。 我 觉得 这个 是 革命性 的, 就是 有 这个 几个 条件, 就是 不准, 就 比较 聪明。 是 端 到 端的, 然后 是 多 模态 的, 能 做到 实时 的 这种 交互, 我 觉得 这是 非常 牛 的。
我 其实 还想 讲 一个 细节, 就是说 大家 可能 比如说 很多 人我 因为我 看 网上 分析, 也就是说 这个 云 助手 这 三个 步骤 就 语音识别。 然后 什么 T D S, 然后 还有一个 中间 查 答案 对 吧? 其实 就是 忽略 了 一个 特别 重要 的 细节, 就是 唤醒。 如果你 去 看 他 这个 演示 演示 现在 感觉 就是说 他 没有 唤醒 这 回事。 这个 东西 我 到 今天我 都很 困惑, 他是 怎么怎么 能 做到。 因为 唤醒 的话, 尤其是 他 有 三个人 在那 说话的 时候, 就 跟 刚才 玉 点 在 说 的 时候, 如果 是 另外一个 云 助手, 那 他 到底 是要 停止 说话, 还是 接着 往 下说 呢? 对 吧?
其实 就是 这个 东西 其实 是 很难 的 一个 问题。 就是你 怎么 在 这个 当 有 三有 两个人 再加 一个 语音助手, 然后 每个人都会 自由 说话的 时候, 这个 语音助手 什么时候 闭嘴, 什么时候 说话? 什么时候 知道 是你 要 他说? 以前 是 靠 唤醒 这种 方式, 比如说 这个 siri 每次 会 叫 他说 一下 这个 siri? 那 现在 这个 东西 你看 它是 在 演示 里边 没有 的。
如果 这个 东西 真正 能 做到, 我 觉得 那是 非常 牛 的。 但 实际 中 我 觉得 尤其是 他 把 这个 霸体 的 那么 高, 可能 很多 用户 用 的 时候 四五个 人 各 说 各 的, 有的 时候 还在 表扬 这个 语音助手, 对 吧? 跟 我们 平时 聊天 一样, 那 可能 这个 语音助手 的 体验 就会 差 很多很多。
那 弹幕 里 是 说 自动 可以, 然后 如果你 开始 讲话 它 会 自动 停止。 但是 我 现在 早上 用 他 新的 那个 4O的 时候, 它 还是 需要你 去 type 一下 这个 屏幕, 它 才会 停下来。
于 总 如果 是 这种 体验, 那就 很 半吊子。 这是我 一直 认为 语音 交互 一定 是你 要 做 就能 做到 端 到 端。 你 不要说 我 做 一下, 我 又 要点 一下, 我 又要 这个 人的 这个 就 相当于 contact switch 交互方式。 有 can't switch, 你 前面 是 说话, 你 现在 又要 我 敲 字, 接下来 又要 我 打字, 我的我 的 大脑 的 这个 负载 就 比较高, 对 吧? 你 说话 最好 就是你 现在 就是 让 我 简单 的 说 就行了。
对, 其实 我们 刚才 四个人 其实 同时 在 说话。 当然 我 一开始 是在 把 自己 放在 mute 上面, 静音 上面 的 时候, 就 三个人 说话。 但是 就像 刚才 这种 情况, 即使 三个人 到底 是 语音助手, 什么时候开始 唤醒, 确实 是 很难。 因为我 在 想做 人类, 刚才 丁 叫 你 跟 我 都在 想, 我是我 让 你 一点, 你 让 我 一点, 要 根据 上下文, 有 各种各样 的 你 要有 各种各样 的 一个 judges 的 在 里面。
对不对? 让 我 想到 了 这个 自动驾驶, 到底 是我 让 行人, 还是 放 传闻 外 的, 还是 怎么样。
对, 我也想 echo 一下 刚才 志 飞 说 的 几个 点 了。 第一个 就是说 我 其实 也 挺 同意, 就是说 一个 demo 产品 跟 你 真正 能 用 在产品 上 是 完全 不一样的。 如果你 分 各种 不同 的 阶段 的话, 刚 开始 的话 你 可能 能 给 个 demo, 其实 大部分 是 给 观众 或者 投资人 看 的。 你 可能 有 一些 design partner, 比方说 能 合作 一些 公司, 能 在 这些 公司 小部分 人群 里 适用 你的 产品。 第三 部分 再 深入 点, 你 可能 能把 A P I 公布 出去, 会有 更多 的 人 拿 这个 A P I 做 事情。 第四 部分 就是说 你 这个 A P I 到底 cost 有 多大, 然后 以及 能 解决 的 能力 有 多大, 对 吧?
那 其实 目前 看起来, open a 这次 发布会 其实 它是 敢 把 A P I 发布 出来。 虽然 是一个 稍微 阉割 点的 一片, 但是 至少 能 做到 沙漠 的 地 三步 了。 但 从 google 来说, 其实 google 大部分 还 停留 在 第一步 或者 第二步。 因为 其实 目前 来说 A P I 至少 还没有 出来。 对, 大部分 也是 一个 demo, 或者说 很小 一部分人 才能 使用 的 一个 程度。 第二 层面 我也想 echo 一下, 就是 对于 这个 实时性。 因为 欧洲 I 这次 4O的 时候, 它 专门 发布 了 一个 页面 叫 贡献者 一个 页面 contributor。
其实 你可以 看到 它 里面 大部分 其实 是 分为 了 三 大部分。 第一 部分 大部分 人 集中 在 一个 基础 模型 上, 就是 语言 类 的 基础 模型。 第二 部分 人群 其实 是 多 模态, 这 那里 头 大部分 人 可能 集中 在 三个 部分, 一个 是 audio 就是说 语音, 一个 是 微 皱 视觉。 第三 部分 就是 real time A V 就是 实时 的 这种 A V 的 一个 这部分 其实 是 蛮 重要 的, 也 放了 不少 人。 第三个 大部分 就是 平台 和 safety 这块, 对, 主要是 这 三大块。 然后 刚才 丁 教 您 说 的 这个 可能 语音 的 时候 需要 停顿, 我 觉得 你 可能 是用 的 那个 open I 的 那个 chat 版本, 可能 用 在 A P P 上。 对, 那个 A P P 上 我 觉得 它 那个 check 版本 应该 voice 版本 应该 还 不是 所有的 voice 版本, 可能 是 之前 他 写 的 是 4.
但 其实 还是 四对。
是的。 因为 是 之前 跟 3.5和 41样, 也是 支持 一种 比较 傻瓜 的 一种 语音 的 对话, 可能 需要你 自己 按 停止 才 可以。 对。
我不知道 刚刚 其实 好像 没有 聊到 extra。 如果 在 跟 C O 对比, 我不知道 大家 其实 有没有 看到 从 demo 上面 会不会 ultra 因为 是 d my 他 来 负责 这 一部分 的 这个 demo, 我不知道 大家 觉得 acr 会不会 比 foo 更胜一筹 呢?
我 觉得 你 稍微 给 观众 讲一讲 那个 extra 这个 背景 就是 google release, 你 稍微 讲一讲 好吗?
好, 对, 然后 这次 google 在 这个 大会 上面 是 由 他们的 一个 算是 子公司 子 部门 然后 叫做 deep my 他们 来 发布 的。 整个 这一次 叫做 project extra 的 这样的 一个 跟 四 欧 能够 同台 竞争 的 这样的 一个 新的 多 模态 的 模型。 这个 demo 他们是 这 样子, 它是 有一个 有 一 工作人员 拿着 手机, 然后 在 一个 办公室 里面 走来走去。 我 觉得 特别 令 我 惊讶 的 不仅仅是 他 能够 随时 是 通过 手机 的 摄像头, 能够 实时 的 跟 demo 的 工作人员 来 实时 的 交互。 然后 说 我 看到 一个 屏幕 上面 有 很多 的 代码, 然后 他 就 会说 你 正在 开发 什么样 的 东西。 然后 更 具体 的 来 告诉 工作人员 说 这 是在 干嘛。 包括 其实 把 这个 手机 的 屏幕 转到 这个 窗外, 然后 说 你 现在 是在 英国 的 某某某 区域, 然后 我 觉得 这个 其实 让 我 觉得 非常 的 creepy, 就 一下子 就 知道 你在哪里 了。
然后 反过来 demo 的 这个 人员 又 在 说, 那 我 眼镜 放在 哪里? 能不能 告诉我 一下 这个 system。 然后 就 突然 就说, 你 刚刚 是 把 的 眼镜 落在 了 那个 桌子 上 的 这个 苹果 的 旁边。 我 觉得 特别 让人 觉得 这个 未来 以来, 特别的 有点 可怕 的 感觉。
是 这 样子 的 一个 项目。 我不知道 大家 会不会 觉得 这 样子 一个 demo 其实 是 比 复 欧 会 更胜一筹。 会不会 他的 这个 其实 他 因为我 觉得 google 它 自己 本身 它的 强大 的 地方 是 它 有 非常 多 的 各种各样 的 数据。 包括 像 location, 然后 包括 像 他们 所有的 这个 search, 大家 互动 的 这样的 一些 data 在 里面。 不知道 大家 这块 怎么看。
因为我 觉得 第一 还是 刚才 说 的, 就 google 的话 其实 就是 一个 demo。 因为 这个 demo 你可以 录 好多好多 遍。 然后 毕竟 是 包括 之前 google 公布 的 一些 demo, 很多 也是 承认 了 后面 做了 一些 后期 的 一些 调整 等等。 然后 我 觉得 这个 demo 可能 比起 因为 open a 特别 会 选日子, 就是 在 google 公布 demo 的 前一天 release 的 这个 思路。 而且 它 其实 不光是 录 了 好 几段 demo, 然后 一 他 现场 还 真正 演示 了 自己, 现场 有 人员 专门 去 演示 了 他 这个 demo, 从 这 两方面 的 对比 来看, 确实 是 大家 看 了 open I 这个, 再看 一下 google 那个 确实 对于 google 没有 太多 的 震惊 程度。 可能 唯一 震惊 的 一个 小 feature 就是说 最后 您 讲 的 那段, 可能 他 是不是 能 记住我 以前 的 画面。 然后 后面 比方说 我问 我 眼睛 在哪, 他 能够 把 以前 的 画面, 萨默 特 用 一个 memory, 还是 用 一种 召回 的 方式 能 去 很 好的 去 定位。 我 觉得 这是 可能 比较 让人 激动人心 的 部分。
对于 这个 location 来说, 我 觉得 可能 实时 获取 一个 G P S, 然后 结合 线下 的 一些 context, 可能 难度 也 不是 特别 大我 觉得 可能 就是说 memory 这部分, 而且 能够 去 实时 去 处理 这部分。 如果说 这个 demo 真正 是 可以 被 大家 用 的话, 那 这部分 我 觉得 可能 是 比 open I 高级 的 地方。 但是 OpenAI 对于 我 觉得 对于 demo 量产, 就是 对于 它的 demo 真正 的 benefit 的 更 多人 以及 使用 上, 我 觉得 还是会 比 google 去 领先 一个 级别 的。 因为 它 至少 把 A P I 敢 放 出来。
对我 觉得 就 是从 这个 技术 能力, 从 目前 表现 的 这个 产品 形态, 说白了 就 半斤八两。 在 这个 长期 的 竞争 里边, 两三个 月 根本 就 不是 时间, 对 吧? 就是 很短 的 一个 时间。 可能 更多 从 一个 长期 的 竞争 角度 去 看, 他们 这 两家 做 这个 产品 会 有些 什么 优缺点。
其实我 觉得 你看 这个 语音助手, 它 有 几大类 类 的 应用。 一个 是 闲聊, 就 陪你 聊天。 其实 他 聊天 是 可以 漫无目的 的, 只要 他 表现 的 像 一个人 就行了。 还有 另外 一类 是 就 以前 我们 做 语音助手 会 这么 闲聊。 然后 第二个 就是 命令, 比如说 你说 帮 我 打电话 给 谁谁谁 帮 我 放 一首 什么歌, 对 吧? 这也是 语音助手 最 常见 的。 然后 第三 大类 才是 这些 信息 或者 是 知识类 的 问题。 就是我 觉得 从 这个 三个 角度 来说, 我 觉得 闲聊 OpenAI 他 肯定 也可以 做 的 很好。 我 觉得 他 google 跟 他 不会 有 拉开 什么 距离, 因为 而且 google 可能 甚至 某种意义上 就是 不太会 聊天, 他 做 的 产品 就 不太会 了解。
对, 但是 命令 类 尤其是 在 手机 这种 平台 内, 因为 它是 需要 获得。 系统 的 权限 的。 因为 我们 以前 做 语音助手, 如果 只是 做 个 A P P, 跟 我 这个 语音助手 就是 像 siri 一样, 跟 系统、 跟 操作系统、 跟 硬件 深度 整合 的, 这个 体验 是 非常 不一样的。 比如说 我 如果 这个 A P P, 我 很多 权限 我 都 没有。 比如说 访问 本地 的 照片, 访问 本地 的 什么 通讯录, 因为你 有 能 访问 通讯录, 你 可能 那个 拨号 的 时候 就可以 做 的 更好, 对 吧?
所以 我 觉得 这个 可能 是我 能 看到 google 它 作为 一个 如果 未来 这个 语音助手, 可能 在 命令 内 它 会 很 会 更有 一些 优势, 更重。 但是 命令 跟 闲聊 其实 这个 事情 都都 没有 太大 的对 用户 来说 价值 不一定 很大。 因为你 比如说 放 个 歌, 我 还 不如 打开 个 A P P 放 一下 就行了。 其实 语音 交互 也 不见得 一定 就 有用。
第三 大类 这种 信息 或者 知识类 的, 我 觉得 这个 东西 是我 觉得 我 特别 去 想想 理解 未来 到底 会 怎么样。 因为 其实 信息 跟 知识类 它是 基于 context 的, 它是 有 上下文 的对 吧? 所以 我 就 什么 意思? 就是说 假如 说 像 google 这样的 公司, 它是 能够 给 这个 语音助手 提供 更多 的 上下文。 因为 它是 一个 它 有 照片 的 应用, 它 有 安卓, 它 有 搜索 的 应用, 它 有 youtube, 它 有 各种各样 的 应用, 对 吧? 而且 这些 用户 都是 很多 亿 用户 的那 这些 都是 成为 这个 语言 模型 的 context。
比如说 你 最简单 理解 就是 放在 那个 real base 那个 R A G 里边。 那 可能 就是说 他 能 回答 的 问题 它 不是 一个 只是 一个 知识库, 就是 所有人 都 一样的, 他 就可以 做 的 更加 个性化 对 吧? 因为你 因为 google 的 整个 生态系统 里边 有 我 基本上 所有的 这个 行为, 所有的 数据? 它 可以 跨 A P P 去 调 数据, 就 回答 你 一个 问题? 我 觉得 这个 其实 作为 一个 语音助手, 其实 他 最 核心 的 最后 就是 要 无处不在 全能 对 吧?
就是 就 跟 一个 秘书, 他 基本上 对你 非常 懂, 他 才能 做 一个 很 好的 秘书, 所以 我 觉得 在 这点 上, 我 倒 觉得 目前 来看, google 因为 它 有 海量 的 用户, 他 有 很多 A P P 都是 高频 的 海量 的 用户。 那 这个 时候 就说 他 一 上来 每一个 用户 可能 基本上 就 已经 很多 数据。 那 基于 上下文 可以 去做 很多 个性化, 对 吧? 这是我 觉得 就是说 他 作为 一个 语音助手, 可能 相对 OpenAI 来说, 从 目前 来看 可能 更加 有 优势 的 一个地方。
Google 做 的 事情, 一方面 他 自己的 产品, 你看 他的 他 不是 release 一个 demo, 他说 release 好几个 demo, 好几个 demo 其实 互相 也是 有 一些 关系。 然后 你 能够 看到 是一个 很 宽 的 一个 产品线, 这个 跟 OpenAI 比 起来, 我 觉得 这是 没有 可比, 就是 这 两件 事情 是 没有 可比性 的。 我 觉得 OpenAI 更多 的 是 还是 继续 往前走, 这个 产品 是 怎么样, 是 需要 像 我们 一点 这样的 同学 去 把 它 产品 给 做出来。 至少 我 并不 觉得 OpenAI 是一个 能够 做 很多 产品 的。
但是 google 开始 先 把 自己的 muscle, 把 自己的 肌肉 显示 出来 的。 虽然 说 就像 一点 也 说 的, 就 是从 demo 对 吧? 从 一个 展示 到 一个 大家 都 能够 用 的 一个 demo, 到 一个 落地 的 产品, 到 一个 可 商业 的。 我 觉得 还有 每一个 都是 很长 的。 但是 至少 他 能够 给 大家 看出来, 我 那么 宽 的 产品线 都 能够 用 A I 都 能够 用 general 的 A I 都能 用到 G 的 model。 我 觉得 这一点 我 觉得 还是 很 不一样的 两个 形态。 一个 是一个 大量 的 产品 在 往前走, 另外一个 是 技术 在 往前走。 这是我 觉得 比较 明显 的这 一次 看到 的 不 不一样的 地方。
对我 挺 同意 的。 如果 用 几个 词 来 描述 open a 和 微软 和 这个 google sorry 的 发布会 的话, 我 觉得 open a 就是 小 而 美, 就是 面对 开发者。 因为 sam 之前 也 说 了, 就是 希望 做 kilar APP, 然后 希望 A G I 能 实现。
然后 对于 google 来说, 我 觉得 就是 大而全 了。 因为 google 本来 就是 一个 很大 的 生态, 就是说 他 有 自己 那么 强 的 操作系统 等等。 他 就是 需要 把 自己的 基本 盘 稳住, 然后 一点一点 做 这个 A I 的 一些 渗透。 那 对于 open 来讲, 其实 之前 也 传 出来 一些 新闻, 他 是不是 需要 他 是不是 要 跟 apple 真正 去 集成。 我 觉得 如果如果 集成 好 的话, 那 这 将是 我 发现 下一步 很大 的 一个 发展 空间 了。 我 觉得 对。
这个 也 蛮有意思 的。 前两天 大家 不是 还 发出 了 照片, 是在 劈柴 哥 跟 tim cook 在 university avenue 那个 timer on 在 吃饭。 然后 这 两天 又 又 在 跟 欧文 I 在 谈 最后的 这 样子 的 一个 商业 合作。 其实 现在 也 还没有 尘埃落定, 到时候 我们 可能 再 邀请 大家 来 再聊 一 聊。 对我 有一个 好奇 的 地方。
所以说 渣 男 是 苹果渣 男 是 苹果。
对, 因为 现金 太多 了, 我就是 都 可以 买。 我 有一个 好奇 的 地方, 因为 这次 open I 它的 demo 上面 其实 是 有一个 部分 是 男性 的 工作人员。 他 想说 我 马上 要 参加 这样的 一次 demo, 然后 我 觉得 很 紧张, 然后 他 就有 那种 呼吸 很 急促 的这 样子 一个 过程, 然后 这个 A I 很快 能够 来 探测 到, 你的 好像 很 紧张, 然后 很快 能 探测 他的 这个 情绪。 我不知道 这个 是不是 非常 难以 训练 的, 可能 得 问 一下 志 飞。
我 觉得 从技术上, 这个 东西 对 google 来说 都 不是 什么 难度。 我 觉得 咱们 还是 得 有点 基本 的 信仰 goole 我 觉得 他在 技术 这些 基本 技术 点, 他的 但 他 确实 由于 这个 组织 效率 问题, 各种 问题 对 吧? 他 可能 比如说 感觉 就是 一直都在 椎管, 对 吧?
我 就 但 其实我 觉得 我们 刚才 说 的 这个 科技 的 竞争, 我 认为 这个 A G I 还是 很 A I 是 很 早期 对 吧? 肯定 是一个 比较 长期 的 一个 竞争。 所以 我 觉得 在 这点 上 反而 不用 太 纠结 说 谁 先 第一个 做了 什么, 第二个 做了 什么, 对 吧?
我 觉得 第二 我 觉得 反而 比较 担心 的 就是 确实 google 产品 的 基因 是 不够 好的。 比如说 你 这种 情感 类 的 东西, 我 觉得 反而 的 产品 就 跟 我们 公司 也 一样。 有的 时候 他 选 的 那个 声音, 我们 工程师 选出 来 的 声音, 他 觉得 这个 很好。 但 我 作为 一个 正常人 的 一句 听, 我 就 觉得 这 什么 鬼。 因为 觉得 其实 很多 时候 是 产品 做 选择, 到底 你 怎么 去 你 认为 哪个 是 好, 哪个 是 坏, 或者 你 在这里 要不要 有 情感? 这个 是我 觉得 反而 是我 比较 担心 google 他 能不能够 真的, 而且 他 一定要 改掉。
我 觉得 现在 google 很大 问题是 他 可能 从 那 发布会 的 感觉, 就是 他 觉得 自己 他 还是 AI 的 这个 C 位 一样, 对 吧? 但 其实 在 我们的 这些 外边 人 来看, 觉得 他 已经 是 老二 了, 就是 那种感觉, 对 吧? 对, 所以 那你 作为 老二, 你 就得 更加 开放。
你 在 有些 事情 上, 你 不能 甚至 要 激进 一点, 不能 太 保守。 因为他 现在 如果 他是 老大, 他 就 很 保守, 他 觉得 自己 就是 要 怎么样? 所以 我 觉得 这 东西 反而 是我 比较 担心 的。
特别是在 前段时间 这个 germany 他的 一些 政治 政策 上面 的 问题, 其实 还 引起 了 蛮 多 的 大家 的 批评 的对, 然后 就是 代表 了 他们 内部 现在 的 文化 和 现在 的 行动 力。 其实 劈柴 哥 在 最 近几个月 也 还是 大刀阔斧 的 做了。
一些 事情。 应该 是 公平 的 讲, 他们 已经 改变 了 很多 了。 最近 一年 多? 从 ChatGPT 出来 以后, google 的 文化 或者说 process 各方面 已经 改变 了 很多 了。 但 尽管如此, 我 觉得 志 飞 说 的 担心 应该 还是 有 很多 还 在那边, 毕竟 那个 存档 难 掉头。 对。
比如说 你看 发布会, 就是你 刚才 也 讲到 你 像 OpenAI 这个 发布会, 25分钟 搞 一个 演示 对 吧? 非常 年轻化, 非常 catch 了, 但是 效果 很好。 但 他他 可能 真的 就 抢 了 一天 前一天。 然后 google 就是我 我们 同事 高价 跟 我 开玩笑 说, 他 特别 像 一个 国企 的 汇报会。 就是 每一个 部门 每一个 部门, 他 有 无数 多 的 产品 部门, 无数 的 多 的 研 研发部门 跑上来, 每个人 讲 个 十分钟, 然后 搞 个 两个 半小时。 这种 东西 就是说 从 这个 发布会 的 效果 来说, 我 觉得 肯定 是 不如 前者 的。
包括 你看 他 那个 微 那 视频 生成 对 吧? 他 前面 已经 有了 这么 多 名字, 有什么 video pod, 有什么 word, 有什么 卢米, 有什么。 他 这次 又 搞 了 一个 新 名字, 其实我 是 觉得 这个 是 让 我 觉得 特别 困惑, 就是你 对 对 吧? 你就是 他 那个 光 那个 名字, 各种 产品 模型 的 名字 可能 就 二三十个 而 沽。 你看 那个 open I 就 GPT sora 对 吧? 我们 选 这个 就是 它 比较 主流 的 就是 对应 这个。 所以 我 觉得 这个 东西 都 是在 表明, 这种 大公司, 它 由于 内部 也要 平衡, 就是 因为他 为什么 搞 出 这个 名字? 我明白, 可能 这个 view 又是 另外一个 团队 搞 出来 的那 必须 给 那个 名字, 不能说 他 这个 也 归到 什么 以前 那个 video boy 或者说 什么 word 这 里面 去, 对 吧?
我 觉得 从 这个 角度 来说, google 还是 没有 觉醒。 他 还是 在 按照 以前 的 惯性 在 做 产品, 做 发布, 做 研发。 这个 我 认为 因为我 其实我 去年 我是 一直 还是 很 支持, 觉得 其实 就是说 OpenAI 的 技术 领先, 这种 势能 的 领先 不会 持续 那么 久。 但是 现在 看起来, 我 觉得 就是我 确实 低估 了 这种 大公司 的 这种 组织 效率, 包括 它 内部 的 反而 就是 人 太多, 要 平衡 各种 人的 利益, 对 吧? 这个 确实 是 我自己 观感 下来, 除了 技术 产品 以外, 就 是从 这个 组织 角度 来说, 我 觉得 是 存在 这样的 问题。
对, 其实 还是 我 刚才 那句话, 就是我 非常 同 意志 飞 说 的, 这些 大公司 的 穿 搭 难 掉头, 这个 问题是 很大 的。 但是 我 还是 要 给 google 一个 credit, 它 其实 已经 做了 很多 大刀阔斧 的 事情。 就 比如说 举 个 例子, J 他 本来 叫 bard, 你 要 让 jm 去取 的。 当然 现在 几个 月 以后 大家 已经 不 觉得 了。
但是 刚刚 要 做 这个 决定 的 时候, 谷歌 内部 其实 是一个 很难 很 艰难 的 决定。 为什么 要把 这个 bar 的 名字 要 改成 jm? 我们都知道 j m 1开始 是一个 模型 的 名字, 而 不是 这个 chat board 的 名字。 就是 那个 demand 的 老大, 他他 极力 推, 然后 要把 那个 巴德 的 名字 改掉。 这 其实 还是 让 不是 属于 他 部门 的 人 要 去 答应 这件 事情 本身 就 不容易。 所以说 我 刚才 说 的 这个 观点 就是说 google 我 觉得 已经 比 一年半 前 的 google 运作 已经 要 快了 很多很多 倍 了。 但是 他们 可能 要 再 快 个 十倍, 最好 大概是 这么 一个 情况。
我们 聊 一下 这个 硬件。 刚刚 浩宇 说 从 一个 晚宴 上门 回来, 然后 看到 有 朋友 有 facebook 刚刚 发布 的 这个 智能眼镜。 然后 好, 你 帮 我们 讲 一下 你的 这个 试用 感受。
其实 这就是 一个 朋友, 他 一个 近视眼镜 还是 有 度数 的, 然后 让 我 稍微 玩 了 一下, 你 就 对 着 眼镜 说说, 给我 拍照片。 然后 我问 三个 cisco 旧金山 的 最好的 餐馆 是什么? 基本上 就 给我 不错 的 回答。 应该说 比 我的 想象 要 要 高。
怎么 这 这 怎么说呢? 就像 志 飞 说 的, 所有的 东西 你 如果 是看 demo 看 大家 的 东西, 其实 我们 早就 到 这一天 了。 但是 一个 产品 能够 真正 把 这些 东西 能够 放在 一个 产品 里面, 我 觉得 其实 已经 算 不错 的 了。 所以 从 这个 角度 上 来讲, 我会 觉得 硬件 这块, 我 还是 有点 期待 的。 但是 就像 我们 大家 可能 都 知道, 硅谷 也有 好几个 公司 都 已经 在 最近 的 半年 左右 对 吧? 发布 了 一些 产品 都是 属于 一开始 大家 有 一定 的 期待, 但是 出来 以后 大家 很多人 就 觉得, 也就 这么 低, 或者说 不怎么 地。
从 这个 角度 上 来讲, 我 想听听 志 飞 你的 想法。 因为你 目前 也有 智能 硬件 的 部分, 也 像你 刚才 说 的 智能 硬件 你 也 做 过 一些 很 广 的 其他 的 东西, 但 最终 只 留下 了 智能 的 手表。 那 为什么 就是你 觉得 你 觉得 那些 坑 是什么? 这些 坑 里面 有 多少 你 觉得 是 不管 是 现在 还是 未来, 我们 那些 genre V I 的 那些 初创 公司 会 碰到 的, 看 能不能 跟 我们 分享 一下。
好的, 我 觉得 可能 大概 有 几个 维度 去 思考 这个 问题。 第一个 就是说 硬件 跟 软件 的 这个 不一样的 地方, 什么 意思 呢? 就是说 比如说 我们 看到 在 手机 上 这个 演示, 其实 它的 手机 这个 硬件 本身 是 非常 完善 的。 它的 各种 对 手机 这个 生态 很 完善, 价格 都 已经 是 市场 达到 了 一个 平衡点。
其实 就是说 新型 的 硬件 可能 就是说 他 什么 都不 完备, 什么 意思 呢? 比如说 你 刚才 讲到 那个 戴 着 眼镜 可以 拍照, 可以 什么 听 音乐, 这个 其实 2014年 的 google glass 就可以, 对 吧? 但是 为啥 google glass 没有 成功? 当然 就是 当时 AI 就是 不够, 因为他 那个 可能 如果 就 做 这 两个 任务, 他 做 的 很好。 但 一旦 你 开始 发散 的 问 他 各种 东西, 那 他 可能 就 挂 了。 所以 软件 本身 这个 确实 当时 是 不行 的。 所以 我 认为 软件 本身, 不管 现在 什么 状况, 未来 一两年 因为 这个 多 模态 模型 我 认为 一定 会 比较 成熟 一点。 所以 这个 肯定 跟 当年 比, 软件 的 问题 我 认为是 巨大 的 提升。
硬件 问题 其实 没有 解决 的。 比如说 刚才 提到 这个 眼镜, 对 吧? 那 当时 book glass 眼镜 很大 问题是 第一 是 功耗。 比如说 我 因为我 当时 我 2014年 我在 国内 我是 装 逼 带 的 这个 google glass, 整天 戴 的。 我 有 一次 我 就 真的 撞 过 这个 柱子, 就是 戴 着 走着, 因为 你的眼睛 老是 瞟 那个那个 屏幕, 结果 就 撞 在 柱子 上。 这 第一个 我 特 记忆 特别 深刻。
第二个 是我 戴 着 这个 眼镜 去 参加 一个 会, 然后 所有人 都 拍 我。 这个 硬件 就是 硬件 本身 它 发热、 它的 重量、 它的 功耗 好, 对 吧? 它的 摄像 那 当时 那 摄像头 摆在 什么 地方, 麦克风 改改 在 摆在 什么 地方? 还有 就是 再到 后面, 就是说 你 要 进入 普通用户 的话, 你 这个 价格 是 多少 对 吧? 比如说 当时 谷歌 眼镜, 我记得 是 1200 美金 还是 多少, 那 是一个。
还是 上千 的, 很贵。
对对对。 说 你 能不能够 做到 像 今天 手机 我说 的 非常 完备 的 硬件 软件 的 体验 以及 价格, 以及 整个 质量 的 可靠性, 对 吧? 因为 很多 因为 我们 以前 做了 很多 硬件, 很大 的 问题是 它的 质量 不稳定。 你 十万台 里边 可能 就是 居然 有 1000台就 1% 不好, 你 这个 东西 就会 网络 上 全部 是 骂 你的。 因为 那 1000个人, 另外 99000 人都 不说 你。 但是 只要 有 1000个人 说 你, 你 就 很 痛苦, 这是 硬件 对 吧? 就是 他 很大 的 问题。 所以 我 觉得 这 一波 A I 硬件 要 真正 变成 一个 稍微 主流 一点 的 设备, 我 觉得 还是 应该 有 很长 的 时间 要 往下走 的, 所以 这是 第一个 point, 就是 产品 本身。
第二个 point 就是说 我 其实 特别 好奇 google 也好, open 也好, I 也好, 他们 未来 会 怎么做 这个 生态。 什么 意思 呢? 就是说 你 做 这个 A I 跟 硬件 的 结合, 你可以 做 两种 至少 两种 选择。 一种 就是你 做 first party device, 就是你 自己 做 设备, 自己 研发。 我自己 比如说 刚才, 比如说 那个 facebook 他 做 的 那个 眼镜 对 吧, 他 就 只 印发 我自己, 他 不 提供 给 第三方。 第二种, 你是 就是说 像 安卓 一样, 我是 做 生态, 我 做 third party, 对 吧? 就是我 把 所有的 手机 厂商, 他们 都 来做 这种 A I 的 设备, 我 主要 提供 里边 的 操作系统 以及 这个 A I 的 助手。 其实 这个 东西 首先 是一个 选择, 他 其实 各有 优缺点 对 吧? 因为 前者 你 自己 硬件 软件 都 自己 做, 好处 就是你 自己 不用 跟 别人 商量 对 吧?
你 这个 包括 I D 设计 价格 里边 麦克风 放在 哪里, 然后 那个 芯片 用 什么, 你 都 可以 自己 决定, 对 吧? 这也是 google 为什么 要 做 那个 pixel 很 重要 的 一个 原因, 就是 要 给 人家 做 演示。 但是 它的 坏处 就是 因为 比如说 你 做 软件 的 公司, 硬件 的 基因 就 很差, 就是 做 不好 的。 比如 谷歌, 你 看做 硬件, 应该 是 亏 的 一塌糊涂。 OpenAI 更 就是说 你 去做 这个 硬件 的话, 我 觉得 是 比较 难 的 一件 事情 对 吧? 它的 基因 跟 google 没什么 区别。
本质 上, 但是 你 做 sod party 那就 存在 就是说 有 个 现在 这个 还有什么 成本? 那 手机 厂商 你是 给 手机 厂商 钱, 还是 手机 厂商 给你 钱 呢? 这 其实 是一个 很 有意思 的 问题。 其实 google 比如说 他 把 他 什么 搜索引擎 地图 放在 苹果 的 手机 上, 是要 给 苹果 钱 的。 这个 前提 是你 能够 在 别的 地方 能 赚 到 钱, 就是你 必须 要 有一个 O K。 我 不好 本身 这个 A P P 或者 这个 A S O system 赚钱, 但是 我 只要 装上去 了, 我 能 通过 广告 或者 别的 衍生 的 产品 赚 到 钱。 这个 时候 我 才能 形成 一个 双方 可以 合作 的 生态。
同样 的 其实 对于 OpenAI 很大 的 一个 挑战 就是说 包括 apple 这次 到底 会 用 google 还是 用 OpenAI, 我是 想不通 的。 因为 google 可以 跟 apple 说, 我给你 钱, 你 装 我 个 语音助手, 我给你 多少钱。 但 OpenAI 应该 没法 这么 干, 对 吧? 因为 那个 量 太大 了, 吧? 因为 google 可能 每年 本来就 给 apple 很多 钱, 因为他 有 他是 全家 桶, 卖 别的 可以 赚钱 对 吧?
所以 我 觉得 未来 新一代 的 A I 助手 多 模态, 但 多 模态 可能 会 导致 新的 商业模式。 这个 多 模态 的 A I 助手 跟 硬件 这个 公司 这个 生态 关系 到底 是 啥? 我 觉得 这个 东西 是 还 非常 不清晰 的。 我 就 先 说 这两点。
所以 你 这两点 里面 你 也 第一点 就是 做 硬件 坑 很多, 对 吧? 就是 你说的 如果 1万个 人 或者 10万个人, 只要 有 1000个人 不爽 就 来 喷 你。 所以说 从 这个 角度 上 来讲, 我们 最近 看到 的 一些 硬件 公司, 它 并不 看上去 至少 从 网上 的 舆论 上 来讲, 看上去 并不是 那么 成功。
从 某种 角度 上 来讲 也是 一个 必然 的。 听 上去 因为你 不管 怎么样, 总会 有 一批 用户 不爽。 即使 少部分 用户 不爽 的 也会 来 喷 你, 所以说 都 会有 一定 放大。 从 这个 角度 上 来讲, 要 去做 硬件 本身 就是 一个 比较 难度 比较高 的 一件 事情。 自费 对 吧? 这 是你的 一个 观点。
另外一个 观点 就是 怎么 去 商业 能够 闭环。 Google 把 它的 broster 放在 或者说 它的 搜索引擎 放在 苹果 上面。 那个 可以 做, 是因为 google 它 有 其他 地方 赚钱。 但是 我们 在在 A I 时代 这个 东西 怎么玩? 除了 google 跟 苹果, 以前 这个 model 可能 继续 能够 work。 是不是 有 新的 model 至少 你 还没 看出来。 所以说 从 这个 角度 来讲, 如果我们 要 去 猜 到底 谁的 是 G 放在 苹果 上面, 还是 ChatGPT 放在 苹果 手机 上面, 你 会 猜 最终 如果说 他 要 娶 一家 的话, 你 会 猜 是 j google 的 G 这个 model 放在 苹果 的 手机 上面。 能不能 这么 理解?
如果 google 足够 的 觉醒, 就 应该 遏制 OpenAI, 哪怕 就是 贴钱 对 吧? 反正 OpenAI 肯定 亏 不 起。 因为你 人家 十个 亿 的 设备, 对 吧, 一个 设备 补贴 10美金, 那就 100亿美金 了。 你 还有 后面 的 inference 成本。 但 就是 google 它 是不是 有 真的有 这种 危机感, 说 我在这 一战 上 我 一定要 遏制 它。 因为 如果 在 这 一站, 你 让 OpenAI 的 东西 放到 了 apple 的 defer 的 语音助手 里边。 我 觉得 google 这个 确实 就 我 真 觉得 如果 他 还不 意识到 这一点, 那 我真的 觉得 google 这个 公司 没救 了。
从此 一蹶不振 的。
可能 我想 起来 一件 事情, 当年 我在 V M 的 时候, 我们 犯 了 一个 错误。 A W S 刚刚 起来 的 时候, 其实 跑到 V M A 来说, A W S 想 用 V M2 的 操作系统。 后来 我们 没有 这个 觉悟, 但是 今天 的 那个 A W S 本身 就是 至少 是一个 确定 dollar evaluation。 当初 我们 没有 这个 觉悟 去 接受 让 A W S 去 全部 用 V M A 的 系统对 我自己。
从 观察 来说 是 我是 觉得 谷歌 没有 意识到 这一点 的。 比如说 那个 gm 有 个 什么 advanced 的, 你 还 收钱。 对我 就 觉得 这是 有 毛病, 这是 很很 奇葩 的 一个 决定。 就 你 能 收 几块钱, 应该 是 给 消费者 说 补贴 才 对, 对 吧? 包括 那个 什么 to b 的 A P I, 你 收钱 有什么 好 收 的? 就是我 觉得 你 都 已经 成 这样 了, 你 还去 收钱 成 这样, 但 我们 可能 是 站 站着说话不腰疼, 对 吧?
对, 这一点 我 觉得 就是你 前面 说 的, 就是 大公司 这一点 是 很难 做 的。 关于 他 为什么 收钱, 虽然 说 我没有 在 他们的 决策 的 链 里面 听到 什么, 但是 我 从 我的 角度 很 清楚 这个 答案 很 清楚。 因为 最终 收钱 是谁 收? 最终 收钱 是 google cloud 这个 部门, google cloud 跟 demand 是 两个 部门。 Google cloud 的 T K 就是 他们的 老大, 其实 是 有 背 这个 营收 的 一个 很大 的 压力 的, 这 里面 它 也 需要 有 A I 的那 部分 的 营收 的 压力, A P 还要 收钱, 其他 的 地方 都要 能够 收钱, 结果 每个 部门 都有 自己 被 营收 的 压力。
这 一个 但是 如果 是 站在 google 一个 看 十年 五年 这个 角度, 我 觉得 我是 非常 同意 你的, 而且 这是 老二, 如果 是 老三老四 的话, 可能 还要 倒贴 你 就像 这是为什么 mea, 他 把 他的 拉玛 给 开源 了。 老马 可能 老三 还 到不了, 可能 到 老四 的话, anthropic 可能 比 他 好 一点。 所以说 如果 是 老三老四 的话, 那就 直接 开源 了 对 吧? 而且 其实 meta 也没有 真正 的 开源, 它 只是 把 位置 给 开放 了。 如果说 是在 下面 的, 我 觉得 最好 是 把 那个 algoma 都 开源 了。 这件 事情 到底 是 正确 的 还是 错的, 其实 很难 去 分析。 但是 我 非常 同意 自 飞 的 一个 观点, 就是说 你 越是 后面 的 你 要 越 激进。 这是 肯定 的对。
因为我 确实 在 中国 也 待 了 十几年 了。 从 这个 竞争 角度 可能 会 思考 的 比较, 我是 觉得 google 在 这个 竞争 这个 事情 上 是 还是 没有 那种 灵魂 思考, 或者说 这个 C E O 他是 不作为 的, 或者 他 没有 能力 去 作为。 就是 从就 是从 从 中国 的 视角 去 看啊, 对 吧? 比如说 你看 没 meta 又 因为 小扎 他是 创始人, 然后 在 第一线, 所以 他 反而 能 做出 很多 比较 大 的 一些 决定。 但是 google 这个 C E O 感觉 他 就是 一个 项目经理, 就 这种 感觉 他 其实 没法 去 像你 刚才 说 那个 各个部门 之间 的 利益, 那你 也可以 通过 内部 去 调节, 对 吧? 因为 如果说 你 在 这个, 比如说 刚才 苹果 那个 事情, 你 再 输给 了 OpenAI, 至少 从 我 这样的 外面 的 问题, 我 就 觉得 google 就 已经 是 就 死 了。
这 公司 对我 觉得 核心 还是 google 的 体量 太大 了, 而且 就是说 他 自己 其实 核心业务 并没有 受到影响。 那 open a 毕竟 是 还是 创业 公司, 还是 有 这个 生存 压力。 而且 其实 从 最近 open I 的 数据 来看, 其实 它 to c 端的 这个 chat 那个 版本, 其实 在 大部分 revenue 的 来源。 我看 外边 的 报道, 可能 他 一年 大概是 两个 B 链 的 营收 20亿美金, 可能 接近 80% 都是 paid membership, GPT 充 会员。 那 这 一块 其实 它 最近 三个月 的 数据, 用户 上 并没有 增长, 基本上 也就是 1%, 可能 2% 的 这种 增长。 但是 它 留存 上 其实 还是 有 一定 的 流失 的。 我看 的 数据 其实 留存 上 是在 降 的。 所以 对于 OPPO I 本身 来讲, 如何 更好 的 找到 第二 增长 曲线, 我 觉得 也是 对他 来说 蛮 重要 的。
其实 你看 OPPO n 发布 的 职位 来说, 因为 我们 做 求职, 我们 也 专门 看 了 一下 open a 发布 的 职位。 他 发布 了 160多 个 职位, 其实 很多 都是 go to market 相关 的, 包括 D O office。 开 到 日本, 我 觉得 肯定 也 想 攻坚 一些 to b 的 一些 企业。 对 因为 日本 的 这个 SARS 公司 其实 留存率 会 高 一些。 对于 open 来 我 朋友 来讲, 下一步 的 增长 就是 如何 出 第二 增长 曲线, 对他 来说 也是 极其重要 的对, 是。 另外 我 之前 看 了 一个 新闻, 其实 如果 进入 苹 我的 生态 的话, 其实 还是 得 给 苹果 不少 钱 的。
比方 google 来说, 就是说 它 成为 苹果 的 一个 主要 的 一个 搜索引擎, 它 其实 每年 给 苹果 大概 18个B点 左右 的 钱。 其实 这个 对于 苹果 选择 来讲, 也是 tim cook 一个 很大 的 考虑 因素。 而且 苹果 其实 自己 在 研发 on device 的 这种 拉屎 w model 其实 也 挺 久 的。 因为 它 需要 考虑 privacy 等等 相关 的 原因。 所以 其实 还是 苹果 去 选择 谁, 或者 以 什么样 的 方式 两边 结合, 我 觉得 还是 挺 有意思 的。
如果 这次 苹果 没 选, 后来 也 可能 自己 就 开始 做 硬件 了, 这 也 说不好。
那那 会 更惨。 我 觉得 open I 是 绝对 是在 走 的 一条 作死 的 路。
就 我们 刚刚 在 还没 正式 入 职 之前, 我们 刚才 也 讨论 了。 其实 现在 硅谷 或者 是 我们在 说 美国 的 这些 创业者, 其实 做 硬件 其实 就是 死路一条, 没有 太多 这方面 的 这个人 人员 和 这个 能力 的 储备 了。
在我看来, 在 美国 这些 除了 苹果 这个 公司 以外 做 硬件 2015年 以后 基本上 就 没有 一个 说 能够 做 一个 像 手机 这种 复杂度 的 好的 产品。 因为 这个 东西 它 不仅 是一个 研发, 就 研发 不用说 了, 因为 硅谷 的 这些 硬件工程师 的 效率 贵 成本 贵 的 简直 就是 难以想象。 还有 就 整个 供应链。 比如说 你 在 深 在 中国, 在深圳, 那 确实 是 说 方圆 10公里 你可以 搞定 你 整个 手机 产业链 的 所有的 供应链。 但是 你 在 硅谷, 根本 就 不可能 了, 很多 元器件 都 没有。 所以 你的 效率 是 可能 是 中国 的 都 不是 什么 10分之1, 我 觉得 都是 几10分之1 的 这种 感觉, 对 吧?
对我 挺 同意 的。 因为 sam 讲 的 他 两个 很大 的 mission 和 vision, 第一个 就是 kilar, APP 就是说 这个 chat G T 到 后面 到底, 因为 现在已经 遇到 增长 瓶颈 了, 很 明显。 其实我 刚才 讲 95% 那个 发布会 是 讲 四 欧, 另外 5% 其实 宣布 了 一个 还我 觉得 还 蛮 重要 的 新闻, 就是 他的 G B T S 后面 会 开放 给 所有 免费 用户 使用。 因为 之前 GPT s 只 开放 给 充 会员 的 人 使用, 那 开放 的 渠道 太少 了。 他 显然 肯定 还是 希望 用 更 开放 的 一个 环境, 就是说 来 吸引 更多 的 用户。 我 觉得 这是 一块, 就是 kar APP 怎么样 能 在 引发 第二 波 用户 大规模 的 增长, 来 给他 带来 更多 的 revenue。
第二点 就是 A G I, 就 这个 东西 什么时候 来, 包括 GPT 等等。 当然 sam 在 外面 说 的 其实 都很 好了, 因为 当然 这个 其实我 觉得 也 不一定 百分之百 代表 内部 的 一些 进展 等等。 包括 训练 GPT5 的 需要 的 资源 等等, 包括 电力, 其实我 觉得 挑战性 还 蛮 大 的。 包括 他 最后 relate 出来 是否 meet 大家 的 期望, 以及 是否 能 去 从 一个 demo 版本 慢慢 转变 为 被 大家 使用, 这个 其实 还有 很长 的 路。
我 觉得 今天 我们 可能 看 O K I 跟 google 竞争, 或者 看 O K I 自己的 发展 的 时, 很多 是 关注 他的 什么 技术, 包括 他 什么 A G I 的 理想, 我 觉得 这个 东西 也 重要。 但是 其实我 认为 最 紧急 的 一个 问题, 反而 是 刚才 说 的 这个 问题。 其实 核心 就是 ChatGPT 是不是 一个 正确 的 产品, 会员 收费 跟 E P I 收费 是不是 一个 正确 的 商业模式。 我 觉得 这 两个 问题是 反而 是 在我看来 可能 是 决定 他 生死 的。
第一个 点 就是说 这个 ChatGPT 是一个 是不是 一个 正确 的 产品, 也就是说 他 是不是真的 是 用户 觉得 是 有 需求, 而且 愿意 持续性 的 去 使用 的 这种 产品 形态, 从 目前 这个 活跃 的 用户 不再 增长, 我 觉得 这是 让人 很 担心 的。 因为 你的 渗透率 还 非常低 的 情况下, 在 美国 我不知道 有没有 20%, 对 吧? 那 这个 说明 你 这个 产品 其实 并没有 真正 进入 一个 大众 的 这个 生活圈, 对 吧? 你 想当年 的 没 无论是 facebook 这个 社交网站, 还是 google 的 socket 引擎, 肯定 不可能 说 在 20% 的 时候 渗透率 的 时候 就 停止 增长, 对 吧? 所以 这是 他 是不是 一个 正确 的 产品。
第二个 就是说 他 这样 商业模式, 一个 就是 靠 收 会员费, 一个 就是 靠 A P I 的 钱。 这 两个 东西 是不是 对的 商业模式。 比如说 反面 反面 的 观点 就是说 你看 指导 我 觉得 这个 会员 会 的 这个 营收 可能 就是 不存在 的, 因为 竞争 越来越 激烈, 怎么 可能 消费者 是 不会 为 这种 东西 付钱 的对 吧? 因为 消费者 已经 白 嫖 惯了, 所以 那个 会员 会 可能 不一定 能 持续。 然后 A P I 如果说 后面 的 竞争者 越来越多, 包括 一些 还有 小 公司, 那只 会越来越 便宜, 甚至 可能 就是 慢慢的 就 逼 近于0? 所以 这 两个 商业模式 目前 感觉 起来 都 不太 可 持续, 就是 OpenAI 能不能够 成功, 最后 就是 他。 能不能 在 我 看起来 这个 就是 没有 任何 希望 的这 这 两个 点 他 能不能 找到 突破点。 这是 他 能不能够 成为 一个 伟大 公司, 或者说 进入 到 下一个 阶段 的 一个 很 重要 的 一个 要 考验 他的 能力。
我 觉得 这 里面 还有 一个点, 就是 要 看 他 跟 老二 老三 的 差距 有 多大。 因为 当 如果 anthropic gina 是 紧紧 追 着, OpenAI 作为 一个 公司 的 valuation 也好, value 也好, 跟 他是 遥遥领先, 那是 天壤之别, 对 吧? 之所以 今天 能够 收 20块钱 一个月, 就是 因为 在 刚 出来 的 时候 被 认为是 遥遥领先。 然后 这个 到底 是不是 一个 一贯 能够 做 下去, 这 是一个 问题。 我 觉得 你 刚才 这个 分析, 虽然 说 我 觉得 从 我的 角度 来讲, 比 我 想象 的 可能 要 极端 一点。 因为我 可能 没有 觉得 有 这么 糟糕。 但是 就 像你 刚才 说 的, 你 可能 是在 中国 的 一个 竞争环境 待 了 十几年 了, 这种 忧患意识 会 比 OpenAI 或者说 比 很多 的 硅谷 的 一些 公司 要 多。 这一点 我 觉得 是一个 很 不错 的 一个点。
这次 其实 sam 在 o en 那个 park 上面, 其实 也 聊到 了 好多, 大家 对他 比较 就 比较 growing。 他的 这个 问题 比较 尖锐 的 问题, 其中 一个 就是 到底 开源 闭源 他们是 怎么 想 的? 像 拉玛 三都 出来 了, 然后 其实 也是 在 紧逼 他们的 这个 GPT4 的 这个 模型, 那 他们 到底 从 一个 non profit 变成 了 一个 for profit 的 公司, 你们 后 一步 是 怎么走 的? 当然 回答 的 非常 的 模糊 了。 他 其实 就 觉得 其实 未来 就 变成 了 模型, 可能 底层 大 模型 它 就 变成 了 这个 infrastructure 能 到 最后 还是 看 上面 的 什么 产品 更加 优秀。 其实 这些 都 大家 都大 差不差。 对, 所以 他 可能 其实 也是 后面 会 再 拼 的, 是 最后 怎么样 能把 正确 的 产品, 就 刚刚 向 志 飞 说 的, deliver 到 to c 端的 这样的 一个 人群。
然后 可能 在 太原 B 站 上面, 他 有 稍微 有点 避重就轻 了, 然后 回答 了 这样的 一个 问题。 另外 其实 他 还 反复 的 强调 了 是 怎么样 能够 达到 A I 智能 体 的 这样的 任务, 终极 的 这样的 一个 概念。 所以 他们 可能 这一次 说 我们 不会 发布 可能 更大 的 模型。 所以 这次 发布 了 这个 four o, 然后 就是 更加 智能 的这 样子 的 一个 助手, 所以 也是 符合 他 现在 的 一个 状态。 然后 他在 硬件 上面, 其实 他 自己 讲, 现在没有 任何 的 一个 硬件 的 产品 能够 比 iphone 做 的 更好 了。 对, 所以 也没有 说是 太多 的 去 清楚 的 会 想 下一步 是 怎么样, 起码 是在 这个 博客 里面, 他 没有 这么 透露 出来。
对, 是我 其实 也可以 回顾 一下, 因为我 去年 3月来 咱们 这儿 录 了 个 博客, G B 4刚发布 的 时候, 其实 如果你 回忆 这一年 的话, 至少 对 开发者 来讲, 我 觉得 就是 一个 词 就是 变得 更 便宜 了。 比方说 GBD4 之前 那个 价格 跟 现在 大概是 五六倍 的 更便宜, 然后 3.5 大概是 四倍 的 更便宜。 但 你 要说 它 提供 的 功能 上 有没有 更好, 或者 是 他 有没有 解锁 它 更多 的 能力。 一直以来 我们 都讲 多 模态, 那 这个 事儿 我 觉得 还是 有 一定 的 距离。
第二 就是说 我 觉得 在 这个 新 业务 上, 它的 下一步 就是说 第二 增长 曲线 在哪里? 就是说 sam 自己 说 自己 要 做 kilar APP 其实我 觉得 核心 还是 说 他 把 自己 定位 成 什么样 的 公司。 你到底 是 千 亿美金 级别 的 还是 万 亿美金 级别 的对 吧? 如果 去 满足 于是 千 亿美金 级别 的, 我 觉得 可能 把 自己 盘子 稳住 就可以 了。 但是 sam 明显 是 希望 把 自己 做 的 更更 大更 强。 第二步 就是说 我 觉得 更 关键 的 就是说 A P I 的 部分, 能不能 跟 更多 的 企业, 跟 更 很多 开发者, 能 让 大家 更好 的 集成 到 产品 里, 能 更好 的 用 起来。 包括 各种 的 信任度 等等。 这个 其实 是一个 一个 很大 的 一个 部分。
您 提到 这个 开源 跟 碧源, 我 其实 特别 想 分享 一个 观点。 因为我 是从 一个 创业 公司 的 C E O 的 角度 思考 这个 问题。 就 刚才 说 忧患意识 也好, 因为 中国 的 这个 竞争 搞得 我们 确实 过去 做 的 很很 痛苦 也好。 我 觉得 但 我 觉得 确实 我们 现在 没法 判断 开源 跟 闭源 的 终局。
但是 我自己 觉得, 如果 要 用 一个 标题党, 我就是 觉得 是 留给 OpenAI 的 时间 越来越少, 这个 是真的 就是说 技术 的 迭代 的 曲线, 没有 像 大家 以前 想 的 说 OpenAI 能够 一路 绝尘。 当 它 不 能够 一路 绝尘 的 时候, 外面 的 这些 所有人 都 达成 了 说 要 all in A I 的 共识 以后, 那 社会上 的 资源, 比如说 开源 上 的 资源 就 会越来越 多, 这个 是一个 一个 现状。 所以 我 觉得 OpenAI 在 这个 模型, 哪怕 就是 纯粹 从 技术 在 模型 层面, 我 认为 就是 得 更加 专注。 因为 其实 他 以前 当年 什么 搞 GBD1, 搞 GBD3, 我 觉得 那个 是 超 牛逼 的 决策。 就是 一个 创业 公司 能够 把 所有的 资源 全部 去 怼, 去 搞 一个 GPT3, 对 吧?
但是 今天我 真的我 再去 看 open 现在 这种 很多 事情, 我 就 觉得 他 很多 都是 机会 机会主义 一些 惯性 动作。 比如说 搞 个 GPT store, 搞 个 什么 flag in, 这个 在我看来 就是 浪费时间。 包括 说 前一阵子 不知道 是 真的假的, 要 做 一个 搜索 的 产品, 我 觉得 已经 晚 了。 就是 你的 有 很多 东西, 我 觉得 科技 的 这个 创业 公司 要 能够 起来。
反正 我自己 创业 的 体感 就是 排名 特别 重要。 它是 非常 残酷 的。 就是 有些 东西 就是 有 时间 窗口 的, 时间 窗口 一 过, 你 这个 东西 就会 很 很难 很难 很难 的。 当然 就是 OpenAI 里面 也 看不到 我们 这个 讨论, 我 觉得 他们 有 google 的 危机感, 也得 农 我 觉得 欧 佩亚 的 危机感 言, 我们 作为 吃 瓜 群众, 就 希望 他们 两个 竞争 的 越 厉害 就 越好。
对 吧? 人家 本来 这个 礼拜 是 让 你 准备 让 你 感觉 哇哦 有 多么 惊艳, 结果 被 志 飞 同学 说 的 留 的 时间 不多 了。 那那 是 半 开玩笑, 我 觉得 我 同 意志 飞 说 的 一点, 就是 留给 OpenAI 的 时间 并 不像 他们 想象 的 这么 多, 我 觉得 这个 是 非常 合理 的。 就 这么说, 如果说 谷 google 的 危机感 有 足够 多, 他 可以 今天 宣告 把 J 的 开源 就是 免费 弄 个 半年、 一年、 一年半, 那就 OpenAI 就 没有了。 除非 OpenAI 能够 证明 自己 能够 做 某些 东西 是 一路 绝尘, 能够 有 拉开 很大 的 差距。
如果说 只是 就像 昨天 就 这个 礼拜 我们的 demo 对 吧? 这个 多 模态 然后 低 延迟。 你可以 说 google 的 不够 多 模态, 或者说 延迟 还 不一样, 你 可能 去去去 抓 一些 这些 小的 细节, 或者说 并不是 很大 的 细节。 但是 就像 志 飞 说 的, 最终 你说 这 里面 差 多少, 可能 就是 三个月。 今天 他 落后 一点, 但是 三个月 以后 又又 差不多 了。 在 这种 情况 下面, 假设 他 如果 能够 大手笔 的 去做 这些 开源 开放, 开 什么东西, 那 OpenAI 留给 他的 时间 已经 没有了。 好在 对于 OpenAI 来讲, 它的 竞争对手 或者 他 今天 最大 的 google, 还没有 觉悟 还没有 这么 高。
我 其实 想 问 志 飞 一个 问题, 志 飞 如果你 现在 是 sam 的话, 你 觉得 你 需要 做 哪几个 方面 的 改变?
我会 辞职 开玩笑。
压力 太大 了。
我就是我 觉得 刚才 徐 老师 导师 提醒 了 我 一点, 我 觉得 确实 美国 这些 公司, 无论是 大公司 还是 创业 公司, 没 那么 竞争 驱动。 可能 我 确实 在 中国 搞得 太久 了。 就是我 是 觉得 如果我 是 google 我会 这么 做, 如果 open 会 我会 那么 做, 可能 会 真的 会 更加 激进 的 去做 这个 竞争 的 动作, 对 吧? 但是 我 觉得 确实 刚好 google 也没有 那么 激进, 然后 欧美 也 那么 激进, 反而 他们 两个 也 能够 互相 都 还有 时间, 这是 有可能 的。
我记得 过去 一年 多, 跟 不少 一些 中国 的 朋友, 包括 有些 讨论, 志 飞 你 也 在 都会 问 一些 问题。 然后 问 完 问题 我 就 自己 在 想, 为什么 他们 要 问 这些 问题? 就 感觉 很多 事情 是 皇帝不急太监急。 我不 觉得 sam altima 或者说 google 的 人 在在 考虑 这些 问题, 但是 我 就 能够 明显 的 感觉到, 在 中国 这个 一个 竞争环境 里面, 就 觉得 这 是你 理所应当 要 问 的。 不问 这些 问题 你干嘛, 对 吧? 另外一个, 我 觉得 这些 公司 已经 在 变化 不少 了, 所以说 我 觉得 也是 要 动态 的 看, 现在 google 已经 比 一年半 前 快快 很多 了。
那 至于 说 meta, 我 觉得 又是 另外一个 meta 的。 小扎 他 当年 或者说 不是说 当年 过去 十几年, 其实 因为他 手上 没有 一个 手机, 已经 是 被 google 被被 苹果 已经 是 弄 得 不行了, 吧? 虽然 说 他 有一个 自己 monopoly 的 东西, 但是 因为 没有 自己的 手机, 其实 他 做什么 事情 都很 困难。 所以 他 这一次 是 学好 了, 他 知道 这个 大 模型 的 意义, 至少 是一个 下一个 手机 的 意义。 所以说 怎么样 他 都 得 进来 掺 一脚, 做不了 苹果, 至少 做 一个 android 的。 所以说 我 觉得 他 这一次 是 心 决心很大, 就是 来 搅局 来 的。
我 觉得 一年前 不管 是 google 还是 OpenAI, 可能 是 主要是 OpenAI。 因为我 觉得 他们 没有 想到 的, 他们 当 之后 对 开源 的 他们是 基本上 是 不屑 或者 不 care。 应该说 他们 当时 我的 想法 很 简单, 就是 因为我 我 有 那么 多卡 几万 对 吧?
以后 会有 几十万 卡 开源 的 人 怎么 可能 有 那么 多 资源 的。 所以说 从 他们的 角度 来讲, 开源 跟 我的 距离 不会 不 不是说 今后 一年 两年, 不是说 是 缩小, 而是 拉大, 这 是从 他们的 角度。 但 我 觉得 他们 没有 想到 像 meta 这种 来做 开源 的, 它 就 不是 一个 开源 的 了, 它是 一个 magnetic 7的1个 公司。 甚至于 我 听到 的 消息 是, 它 甚至于 把 C C P U 的 数据中心 都在 改成 G P U 中心。 它是 集 一个 这么 一个 万亿 级 市值 的 公司的力量 来来 跟 你 对抗, 然后 再 把 它 开源。 我不 觉得 在 一年前, 他们 想到 这一点, 所以说 这 也 是从 从 这个 角度 上 来讲, 也是 一个 忧患意识 不足。 估计 如果 是 他们 聘请 志 飞 做 顾 的话, 自费 11年 多 前 就 跟 他们说 清楚 了 这 以后 会 发生 什么, 但是 他们 最近 一年 也是 在 学习, 比如说 也有 可能 经过 这么 一年 多 的 学习, 忧患意识 会 强 很多, 会 拭目以待。
我是 去年 飞哥 说 A I 里面 都 写 过。
所以说 他们 没有 定义 你的 飞哥 说 A I 这是 最 重要 的 问题。
对, 我们 持续 吃 瓜。 我 觉得 徐 老师 的 总结 也 非常 的 好。
我 觉得 google 还要 让 我 特别 困惑 或者 特别 沮丧。 你说 你 作为 后发 者, 你 为啥 不 把 开源 这个 事情 做到 极致, 而 不是 搞 一个 解码 的 名字。
对。
那么 小, 你 以前 是 靠 什么 起家 的, 你 忘了 吗? 吧? 安卓 什么什么 TensorFlow 对 吧? 对我 真的 从 这个 角度 来说, 我 真 觉得 这个 C E O 就 应该 都 应该 辞职。
我 觉得 本质 上 其实 还是 文化 的 差别。 因为 其实 在 美国 更多 的 其实 还是 一种 创业 的 文化。 就是说 大家 其实 更 愿意 相信 大 的 理想, 大 的 梦想。 因为 open a 早 最早 就是 research 起家 的, 是一个 非盈利机构。 那 啥 叫 research 呢? 就是 布朗运动, 就是 大家 相对来说 比较 软 的 那些。 就是说 每个人 做, 每个人 觉得 照着 每个人 对的 方向 去 走, 突然有一天 做出来 了。
其实 现在 我 觉得 从 文化 上, 我 觉得 sam 已经 极力 在在 扭转 了, 就是 给 大家 画 一个 大饼。 我 觉得 risk 是 有, 但是 肯定 也没有 这么 大 了。 因为 核心 我 觉得 还是 美国 的 整个 文化, 就 包括 美国 的 整个 社会, 以及 美国 的 投资者 都 还是 愿意 相信 有 更大 的 梦想 的那 我 觉得 对于 中国 来说, 毕竟 我 之前 听到 反正 开玩笑 说中国 的 公司 要 不就 做大, 要 不就 做 死 了。 因为 其实 这个 整体 来讲, 竞争 压力 确实 非常 大我 觉得 更 像 中国 创业者 的那 就是 马斯克 了。 我 觉得 我们 一直 忽略 讨论 的 一个 就是 X E N.
我们 没有 今天 也没有 时间 去 聊 这个 word 的 开源 的 这些 东西。 对, 他们 其实 是 第一个 开源 的。 行, 我 觉得 可能 我们 得 再 开 一期 来 聊 这个 开源 闭源 更大 一些 的 这个 话题 了。 对。 谢谢 今天 几位 的 时间, 谢谢 志 飞。 好, 谢谢 大家, 再次 恭喜。 然后 也 谢谢 玉 典, 谢谢 徐 老师。
这么晚 还 谢谢 我们的 听众。
谢谢。 这就是 我们 今天 的 words next 科技 早知道。 欢迎 大家 在 评论 区 和 我们 留言 互动, 加入到 科技 和 创新 的 下一步 讨论 中 来。 另外 如果你 想 支持 我们在 播客 内容 上 的 探索 和 创新, 欢迎 大家 加入 我们的 生动 胡同 会员 计划。 详细 的 加入 方式 和 信息 请 查看 本期 节目 的 so no, 我们 下期 再见。