欢迎 收听 硅谷 101, 这是 一档 分享 当下 最 新鲜 的 技术 知识 与 思想 的 科技 博客。 我是 红军。 这 期 节目 我们 继续 来 关注 大 模型 领域 智能 硬件 的 创业 机会。 我们 也 给 大家 选 了 一个 非常 有 代表性 的 公司, 就是 前 一段时间 在 2023年 宣传 视频 一经 发出 就 火爆 全网 的 智能 硬件 产品 human 的 A I pin。 What A I P 是 这个 产品 的 名字。
human 是 公司 的 名字, is the humane A I pin sustain aloan device and software platform built from the ground .
up for ai 那 他们的 产品 是什么 呢? 简单 来说, 它是 一个 憋 在 胸前 的 智能 硬件 产品, 大小 大概 只有 手机 的 一半。 他 想要 去 替代 现在 的 手机 功能。 而 这个 智能 硬件 的 核心 是 它的 整个 程序 是 由 OpenAI 的 ChatGPT 来 驱动 的。 可以 说 在 ChatGPT 推出 以后, 智能 硬件 的 创业 应该 是 非常 的 多。
Human 之所以 知名, 我 总结 了 三点 原因。 第一点 是从 2019年 创建 以来, 它 其实 已经 接受 了 超过 2亿美元 的 融资。 而且 它的 投资人 里面 也是 包括 OpenAI 的 C E O sam 奥特曼。 第二个 是 它是 由 两个 苹果 的 设计师 创建 的。 待会儿 我们在 节目 中 会 详细分析, 它的 整个 设计 思维 还是 非常 苹果 的那 宣传 视频 发出 之后, 其实 也是 在 整个 海外 创下 了 非常 高 的 网络 热议。 第三点 我想 也是 最 重要 的 原因, 就是 我们 正在 从 移动 互联网 时代 过渡到 AI 时代。 AI 时代 会 出现 什么样 的 智能 硬件, 它 是不是 可以 替代 手机? 这 里面 是不是 有 一个苹果 级 的 机会, 也是 非常 值得 讨论 的。
我们 这 期 的 播客 的 录制 时间 是在 2023年 的 12月8号, human 的 发货 时间 是从 2024年 的 三月份 才 开始 发货。 所以 在 我们 录制 的 时候, 其实 并没有 亲手 去 体验 过 这个 产品。 所以 我们在 讲 这 集 播客 的 时候, 我们是 把 Q 妹 的 视频 拿出来, 一帧 一帧 的 会 去 解析 整个 Q 妹 运用 的 技术 是 怎么样 的。 但是 受限于 因为 我们是 一个 播客 产品, 大家 并 不能 看到 视频 画面, 而且 原声 也是 英文 的。 所以 我会 把 一些 视频 画面 翻译 成问题 来 呈现 给 大家。
另外 在 我们 这 期 节目 放 出来 的 时候, 其实 已经 是 一月 中旬 了。 这个 时候 也是 我 刚刚 从 C E S 回来, 在 C E S 上 也 看到 了 非常 多 的 智能 硬件 产品 卖 爆了。 而 Q 魅 现在 也 在 开始 第一轮 4% 的 裁员, 所以 我 觉得 这个 角度 也 非常 有意思。 其实 现在 又 开始了 一个 群雄争霸 的 时候, 所以 之后 我们 也会 从 不同 的 角度 来去 跟 大家 拆解 A I 时代 的 智能 硬件 会 是 怎么样 的。 下面 就请 收听 今天 的 节目。
今天 跟 我们在一起 聊天 的 嘉宾 是 real chat 的 创始人 魏 潇。 Hello 魏 逍, 你好你好, 听众 朋友们 好。 魏 潇 现在 自己 也是 在 做大 模型 相关 的 创业, 而且 你 之前 是在 google assistant, 我 觉得 跟 九妹 今天 在 做 的 很多 事情 可能 还是 有 一脉相承 性吧。
是的, 都 是在 这个 语音 的 基础上 做出 很多 的 应用 场景。
还有 一位 是 sky work 的 创始人 杨俊 睿。
Jacky hello, 大家好。
Jacky 是 斯坦福大学 计算机系 的 博士生, 也是 A R V R 以及 人机交互 的 研究者。 我 今天 看到 这个 智能 硬件 的 时候, 我 觉得 从 人机交互 的 角度 应该 可以 聊 非常 多。
确实 这 是从 硬件 上 和 它 交互 上都 是 有 一些 之前 的 研究 在 做 类似的 东西。
今天 还有 一位 是 大家 的 老朋友, cargo 的 软件 负责人 刘冰 彦。
Hello 冰焰, hello, 好久不见。
对对对, 因为我 不知道 大家 之前 有没有 看 他的 一个 宣传 视频, 你们 要不要 从总体上 来 点评 一下, 你们 到底 看好 还是 不 看好 这个 产品。 我们 先 给 大家 一个 直观 的 印象, 我们 待会儿 可以 一起 来看, 边 看 视频 一边 看, 一边 针对 他的 每一个 他 提出 的 功能 的 亮点, 我们 去做 一些 细节 的 拆分。
好的, 好。
不然 魏 潇 先来。 好, 我 其实 在 他 发布 之前, 我 也就 加入 他的 那个 way list。 我 看过 不少 它的 promotion 的 视频, 尤其是 大家 在 看到 它的 硬件 之前, 吸引 最多 眼球 的 就是 它 能够 把 影像 投射 到 自己 手上。 然后 他 还 可以在 手上 跟 他的 A I 进行 交互。 我 觉得 大家 其实 被 这个 东西 就 完全 吸引 眼 求。
然后 等 他 发布 这个 硬件 的 时候, 我 觉得 大家 第一 反应 就是 感觉 好像 挺 酷 的。 然后 再 一 想, 感觉 700块钱 买 了 一个 智能 的 戴 在 身上 的 音箱 或者 收音 装置 到底 值不值? 所以 我 个人 其实 不是 很 看好 它 这个 方式, 因为我 之前 做 过 很多 goole system 相关 的, 无论是 应用 或者 硬件, 光 通过 语音 或者 通过 一些 简单 的 交互, 它是 太多 的 场景 是 没有 办法 覆盖 到 的。 他的 想法 是 很 好的, 但 我 觉得 他 会 在 之后 的 execution 会有 很多很多 问题。
Jacky 首先 一方面 我 觉得 A I 需要 一个 操作系统 级别 的 接入。 无论是 从 手机 的 O S 上面 或者 智能 硬件 上面 做 一个 接入。 我 觉得 从 这个 角度 来讲, 我 觉得很有 道理。 我 个人 不是 很 看好 它的 贴 在 身上 的 相机。 这样 一个 form factor, 就是 他 这样的 一个 模式。
或者 这么 讲, 我 觉得 它 这个 贴 在 身上 的 这个 相机 这个 模式 可能 不是 最好的 模式。 以及 它的 这个 投影 交互 可能 更 离 最好的 A I 的 交互 模式 有 一些 距离。 所以 我 觉得 它的 这个 方向 是 好的。 但是 它 这个 具体 的 硬件 的 实现, 我 认为 可能 有 一些 值得 商榷 的 地方。
所以 主要是 你 就 觉得 贴 在 身上 那个地方 跟 投影 的 方式, 这 两个 是 不合理 的对, 刚刚 我 总结 一下 魏 潇 你的 观点 是 觉得 语音 的 这个 场景 是 受限 的对。
其实 他 没有 办法 有一个 可以 快速 显示的 东西, 然后 他 就 只 局限于 手上 的, 这个 是 非常 有限 的。
对 边 就像 刚才。
jacky 说 的, 我 觉得 这个 东西 它的 方向 是 对的, 但是 它的 实现 我 很 担心。 它 第一 它的 投影 这个 设备 到底 是 以后 会 怎么样? 这个 东西 我们 一会儿 可以 仔细 聊 一下。 投影 本身 是 有 很多 技术 问题 的, 具体 的 实现 能 做到 怎么样? 能不能 非常 稳定 的 基于 投影 的 这个 触控, 能不能 做 的 非常 好, 我是 比较 怀疑 的。
语音 上 应该 是一个 相当 不错 的 一个 东西, 但是 语音 就像 刚才 说 的 也会 比较 受限。 整体 上 来说 就是 需要 一个 A I 的 一个 操作系统, 是 没有 任何 问题 的。 但是 这个 操作系统 为什么 不能 是 现有 的 手机, 我 现在 实际 比较 怀疑, 我 觉得 大家 最 期待 的 是 现在 有 一款 基于 手机。 他 想 实现 的 这些 东西 可能 都 可以 实现 至少 百分之八九十, 但是 很多 他 不能 实现 的 东西。
也可以 实现。 你是 说 在 手机 上 有一个 ChatGPT.
不止 ChatGPT, 而是 比如说 基于 语音。
基于 图像, 基于 摄像头。
你可以 基于 图像, 你可以 基于 摄像头, 你可以 展示 图片。 手机 的 渲染 能力 比 这个 投影 会好。 手机 的 交互 能力 应该说 大家 都 用惯 比较 好。 手机 的 录音 能力, 手机 的 摄像机 各方面 都会 比较 好。 所以说 现在 为什么 我们 需要 一个 非 手机 的 设备 来做 这件 事情? 我 现在 这么说, 就是 以后 可以 有, 但是 现在 大家 可能 就 跳 的。
有点 多了。 我 可不可以 这样 理解 你的 意思? 如果我们 把 苹果 的 siri 的 底层 换成 ChatGPT, 你 觉得 它是 一个 更 接近 理想 中的 A I 时代 智能 硬件 的 产品。
我 不太 喜欢 苹果, 所以说 咱们 就说 如果 是 把 goog assistance 换成 ChatGPT, 这么说, 不用 换成 g gbt, 换成 他们 自己的 pom 或者 whatever, 这个 问题 都 可以 解决。 我 觉得 至少 90% 以上。
对, 这个 待会儿 可以 跟上 详细 的 聊 一下 很多 想法 的。
当然 google 在 这件 事上 能不能 做成 他 公司 自己的 问题, 这是 另 说。 但 是 单纯 从 产品 的 逻辑 的 角度 来说, 我 觉得 暂时 就像 outcome 剃刀? 勿 增 实体。 在 这个 时间 上 我 觉得 还没有 到 需要 添加 一个 完全不同 交互 模式 的 时候。 从 另一个 角度 来说, 我们 之前 也 看过 V R 的 各种各样 的 交互, 包括 基于 三 弟 的 一些 交互, 包括 基于 手势 控制 各种各样 的。 大家 最后 发现 还是 手机 用 起来 舒服, 对 吧? 所以说 这个 东西 我 觉得 他 不应该 不需要 把 A I 进入 人们 生活 这件 事情 绑定 到 一个 全新 的 交互 模式 上, 这是我 觉得 最大 的 一个点。 所以说 从 这个 角度 来说 上, 他们 现在 做 的 事情, 我 觉得 是 更 直接 更能 有用的 一个 东西。
对, 当然 还有 一点 就是 太贵 了。 我 觉得 700块钱 一个 硬件 device 确实 是 很贵。
这一点 上 我 觉得 倒还 真。
你 愿意 79 9月24 美元 的 增值。
就是你 愿意 799, 你 愿意 一千多 刀 买 一个, 不是 一千多 刀 买 一个 手机。 我 觉得 如果 他们 认为 这 东西 将是 替代 手机 的 下一代 的 交互 模式 的话, 这个 价钱 不算 贵。 只是 它 能不能 替代。
这是 核心 的 问题。 你 看看 用户 是谁 了, 他 有可能 就是说 我们 最 开始 从 一个 比较 premium 的 用户 群体 去 切入 以后 再去 A I 中的。 有 道理 对我说 一下。
我 为什么 想做 这个 选题, 当时 是 这个 产品 刚 出来, 然后 我们 有一个 同事 在 内部 选题 会 上报 了 这个 选题。 我 当时 其实 还没有 看 他的 视频, 然后 我 快速 拖 了 一下 进度条。 我 就 觉得 这个 是一个 基于 A I native 的 思维 去 设计 的 A I 时代 的 智能 交互 产品。 他 可能 在 像 当年 的 苹果 一样, 再去 重新 定义 在 A I 时代 我们 应该 怎么样 去 完成 交互 这件 事情。 就是 他的 思维 可能 是 现在 的 手机 厂商 很难 做 的这 是我的 第一印象。 但是 选题 会 结束, 我 就 把 这个 视频 从头到尾 又 看 了 一遍, 看到 每一个 细节 我 都有 无数 的 问题, 我 觉得 好像 都 很不 现实。
我 能不能 提 一个 东西, 我不知道 你们 有没有 印象, 曾经 facebook 出过 一款 手机。 我不知道 你们 有没有 印象 有 这样 一个 东西, 就是 滑铁卢 中的 滑铁卢, 就是 做出来 根本 没有人 买的。 我 觉得 他 这个 就有 类似的 感觉, 就是说 是的, 当时 在 facebook 如日中天 的 时候, 你 想 用 搜索 来 改变 智能 设备 或者说 人们 的 交互方式, 然后 想出 一款 自己的 手机。 但是 大家 发现 你的 定位 就是 一款 APP, facebook 就是 一款 APP。 你 想 去做 O S 不合理。
O S 是 操作系统。
对 操作系统 是 没有 什么 道理 的。 A I 的话 我 不能说 做 O S 没 不 不合理。 但是 这个 意义 上 的 O S 把 它 变成 一个 APP, 不会 怎么 限制 它的 能力, 或者说 非常 有限。
这个 我 倒 是不是 特别 同意, 因为我 认为 A I 它 有一个 特点, 就是 它 可以 接受 很多 不确定性 的 输入, 对 吧? 比如说 可能 是 我们在 聊天 这个 context 下, 接下来 我问 的 这个 问题 才有 道理。 对, 比如说 我 觉得 我 用 ChatGPT 的 时候, 我 50% 甚至 80% 的 时间 我不是 在 问 我的 问题, 而是 我在 set up 这个 context。 我在 跟 他 描述 我 现在 在 做 什么样 一件 事情, 我在 回 谁的 邮件, 我的 态度 是 怎么样 的, 他是 跟 我 什么 关系, 然后 最后 才是 我 该 怎么 回 他的 邮件。 所以 我 觉得 还是 和 APP 不太 一样的, 就是 它 需要 一个 系统 级别 的 接入, 是不是 个 硬件? 我 觉得 可以 是个 硬件, 或者 可以 是个 操作系统 级别 的 插件 之类 的, 我 觉得 都 可以。
但是 它 主要 解决 的 是 这个 context 的 问题。 像 ChatGPT 这样的 一个 形式, 我们 把 它 放到 A I 里, 还是会 出现 我 刚才 说 的, 他 不 熟悉 用户 当前 做 的 事情 的 context 这样 一个 问题。 当然 这 一方面 是 这个 数字世界 里 的 context, 对 吧?
你 如果 是 手机 的 操作系统, 你 可能 可以 说 我 把 手机 里 的 程序 的 context 都 context 这个 词 可以 翻译成 上下文。 但是 上下文 不太 完全 能 涵盖 这个 词 的 含义, 所以 我 就 用了 英文。 所以 手机 可以 做 手机 上面 的 操作 的 context, 对 吧? 但是 比如说 你 现实 世界 中 可能 有些 操作, 我们在 交互 的 时候, 那 手机 该不该 听 呢? 我 觉得 这里 可以 有 新的 硬件, 可以 没有 新的 硬件。 如果 没有 新的 硬件, 这个 操作系统 的 底层 逻辑 需要 重新考虑。
好的, 接下来 我们一起 来看 一下 视频, 我们 顺着 视频 来 分析。
There's two pieces of computer. 我 这个。
视频 最 开始 是 讲 了 它的 组成 方式, 它是 由 两 部分 构成 的。 一个 是 可 穿戴 设备 的 主体 A I P, 它 直接 憋 在 胸前, 背后 是一个 磁吸 式 的 电池 给 它 供电。 你们 看好 这个 供电 的 方式 吗?
我 觉得很有 意思 的 事情 是, 它 这个 battery booster 不会 和 它的 主体 是 无线连接 的。 我 有点 担心 这个 无线 的 效率 问题, 除非 他 有什么 很 神奇 的 解决方案, 否则 我 觉得。
为什么 无线 有效 效率 问题, 这个 难道 不是 一个 很 典型 的。 比如说 wireless charge, 但是 wireless charging 就是 有 很高 的 损耗, 这 没问题。 但是 说实话 它 用 磁铁 什么 贴上去 的话, 加 一个 pin 在 背后 也是。
非常 有可能 的, 是不是? 那那 你 就得 穿透 你的 衣服。 像 现在 展示 的 女性 穿 的 皮衣。
可能 OK 它 其实 是个 磁吸 式 的。 光 说 硬件 它 本身 我 觉得 它的 这个 phone factory 还是 做 的 很好 的对, 这点 很好。 就是你 从 它的 形状 大小 到 它的 如何 去 思考 它 怎么 去 贴 在 自己的 衣服 上面, 到 怎么 去 charge, 怎么 去 replace battery。 我 至少 觉得 他的 apple 的 designer 在 这个 场景 里面, 他是 花了 真的 是 重金 来 研究 这个 事情 的。 就 怎么 是 最合适 的。 而且 如果说 你 仔细观察 它的 相机 的 这个 角度, 因为 google 最早 的 时候 出过 一款 东西 叫做 google clip 对 吧? 就是 很多人 可能 不记得, 我 稍微 解释一下 郭 clip 做了 什么 事情, 它 就是 跟 它 类似的 大小, 是一个 方块 形 的, 它 可以 放在 桌子 上面。
它 当时 的 卖点 是 说 我是 A I power 的 camera, 什么 意思 呢? 就是说 我 只要 把 这个 放在 那边, 然后 你 只要 前景 里边 你 做 的 任何 事情, 当 他 觉得 说 这个 是一个 非常 好的 画面 的 时候, 他 就 自动 拍照 了。 他 当时 卖给 的 人是 家里 边 有 特别 多 的 孩子, 老年人, 对, 就是 特别 动态。 所以 他 就说 我 你 就可以 把 它 挂 在那边, 他 就可以 拍照 了。 所以 你可以 看到 他 和 这个 的 区别, 就是说 他的 相机 是 这个 弧度 的。 就是 因为 它 有 这个 弧度 之后, 它的 视角 是 更 平。 所以 即使 是 你看 挂 在 衣服 上面, 虽然 有一个 仰角, 但 它 还 可以 拍 到 前面 所有的 人。
然后 另外 有一个 就是 可能 这个 是 和 女性 身体 结构 也有 关系, 对 吧? 你 要 想 一下 就是 男性 的 胸 是 平 的 是真的, 所以 他们是 肯定 是 考虑 过 这个 事情 的对 吧? 当 你的 胸部 是 有 弧度 的 时候, 他是 没有 办法 拍 到, 你 会 拍 到 很多 的 蓝天, 所以 它 弧度 做 进去。 所以 我 觉得 apple 他们的 这 波 设计师 出来 创业 的 这个 公司, 他在 整个 设计 device 上面, 我 觉得 是 无可挑剔 的。
但 我想 刚刚 jacky 你 想 表达 的 核心 就是说 它 这种 磁吸 式 的 电池 的 booster, 它 其实 是 有 很大 的 能量 损耗。 我们 质疑 的 是 它 电池 能 维持 多久 这件 事情。
对, 或者说 他 加 了 这个 battery, 我 觉得 换句话 来讲, 如果 他 没有 这个 battery? 然后 他用 它 机身 内 省去 的 充电 线圈 之类 的 空间, 加一点 电池 可能 也能 有 类似的 续航。 另一个 角度 来讲, 我 感觉 他 可能 为了 加 这个 battery booster 的 一个 目的, 是 为了 让 它的 重量 能 稍微 均衡 一点。 它 不会 拽 这个 衣服 的 外面, 把 它 往 外 拽。 所以 我 觉得 有点 强行 的 解决。
很 有 苹果 的 那个 苹果 那个 A R 加 了 一个 电池 pack 这些。 对, 但是 我 实际 想说 的 是, 它 实际 想 提供 的 功能 是 通过 电池 可以 不断 替换。 就是 又 回到 你 这个 context, 就是说 是 他 想 给你 提供 永久 续航, 就 这个 概念 就是 换 电 对 吧?
换 电 模式 我的 速度 是 最快 的。 对你 充电 其实 充 起来, 你 无论 用 什么 方法 充 它 都是 会 慢, 然后 还有 损耗, 你 换 电池 是 最快 的对。
所以 很 聪明。 他们 之后 就 比如说 我 就可以 卖 电池 的 booster, 它 就可以 单独 作为 一个 卖点 了。 肯定 大家 就 觉得 是 一两块 是 不够 的对 芯片 你们 有 要 分析 的 吗? 比如说 基于 高通 的 芯片。
这个 一会儿 我们 可以 说 一下, 这个 东西。
实际上 就是 高通 的 手表 级别 的 芯片。
这个 对 芯片 的 要求 高 吗?
不是 很高, 因为 它 都 是在。 而且 说实话 他说 的 这个 非常 对, 就是 手表 这个 芯片 恰恰 就是 满足 这个。 因为 手表 一般来说 有什么 要求, 就是 可以 非常 低功耗 运行。 第二 它 能够 支持 一定程度 的, 比如说 唤醒 词 或者 一些 唤醒 的 模式, 让 它 进入 高功耗 的 模式 来进行 处理。 所以 这个 很 可能 很好, 但是 既然 他 想做 这些 东西。
不需要 很 高端 的 芯片。 好的, 接下来 的这 段 展示 我 就 不 重点 说 了。 大概 就是 他 不需要 手机 的 A P P, 你 只要 告诉 他说 播放 一些 音乐, 他 就可以 给 大家 放歌, 还 可以 给 大家 找 餐厅。 感觉 是 现在 整个 A I 界 比较 标准 的 一个 做法 跟 方式。 你们 怎么看 这个 功能?
我 就 问 一句, 这 东西 和 siri 或者 google system 有什么 区别? 就在 这 一部分 的 交互 的 过程中。
没有 任何 的 区别, 对 吧? 而且 他 因为我 做了 很多年 的 google st, 其实 这个 里边 他们 肯定 没有 想 清楚。 最大 的 问题 就是 没有 APP store, 也就 意味着 大家 不知道 里面 有什么 APP。 你可以 这么 想, 就是 当 google instant 第一次 你 拿到 的 时候, 你 根本 不知道 你 怎么用 它。
因为 discover 其实 是个 非常 大 的 问题。 所以 你 会 听到 alexa 有 skills, google 有 actions, siri 有 shortcuts。 因为 只有 当 你知道 里面 有什么 功能 的 时候, 你 才会 用 它。 所以 我 觉得 他们 我 不知道为什么 就 完全 不 考虑 apps 或者 没有 这个。 所以 其实 就是 那你 怎么 去 教会 你的 用户 怎么 去 使用 这个 东西。
我 实际 在 这一点 上, 我 还 恰好 是一个 相反 观点, 我 认为 这个 不是 问题。 因为 难道 不是 你们 做 A I 这 一行 的, 做 agent 的 最终 想 提供 的 就是说 是 我是一个 全职 全能 能 帮 你的 事情。 你 不需要 知道 我 能 做什么, 你可以 认为 你 想做 的 我 都 可以 帮你 做。 我 觉得 他是 想 提供 这样的 一个 问题, 所以说 他们 不需要 一个 P 但是 反过来 我想说 的 是我 觉得 没有所谓 的 APP 这个 概念, 真正 造成 的 问题是 失去 了 很多 contact。
举 个 例子, 如果 没有 APP, 比如说 我想 订 酒店, 你 会 human 会 用 他的 credit card 订 吗? 不会, 他 一定要 需要 用 你的 信用卡 来 定。 那你 这个 信 看 怎么 猜 up 你的 酒店, 你喜欢 什么样 的 酒店, 酒店 的 常驻 旅客 这些 信息 怎么 填 进去。 你 订 酒店 说 OK, 我 订 酒店 我 自动 用 某 一个 chain, 这个 东西 怎么 实现? 另一种 情况, 他说 calendar OK, 我想 建 一个 日程, 帮 我 管理 一下 今天 的 日程, 这 情况 这些 东西 他 还 不需要 set up 吗?
我 觉得 set up 或者说 提供 这个 完整 的 context。 因为 在 有 这些 东西 初始 context 建立 之前, 这些 东西 是 没办法 工作 的。 一个 agent 在 不能 以 你的 身份 调用 A P I 的 情况 下一个 agent 能 做 的 事情 非常 有限。 他 需要 的 就是 用 你 这些 信息 来做, 而 这个 东西 是 必须 有一个 set up 和 opt in 的 过程。
否则 的话 更 恐怖 的 一个 事情 就是我 说梦话, 我说 了 一句 OK 给我 买 一辆车, 然后 我的 卡 就 被 划 了, 车 就买 了, 退 不了 了。 这些 东西 我 觉得 这 是一个 out in 的 过程 是 必须 有的。 而 opt in 的 过程 就是 这个 APP store 存在 的 一个 基础 的 意义, 就是你 手机 上 不会 有一个 你 不 想要的 APP。
其实 我们 刚才 提到 两个 问题, 一个 问题是 discover ability, 就是 可 发现 性 的 问题。 我 倒是 个人 觉得 可 发现 性 在 大 模型 时代 越来越 不是 个 问题 了。 因为 比如说 你 跟 siri 说 你 能 做什么, siri 有一个 非常 固定 的 列表。 比如说 我在 问 说 你 能 对我 的 日历 做什么? 他 可能 已经 没有 办法 回答 了。 但是 大 模型 非常 轻松 的 可以 回答 你 这个 问题, 他 知道 他 有 哪些 A P I, 你 问 他 你可以 对 我的日记 做什么, 他 可以 把 所有 都 给你 列出来。 你可以 跟 他说 我 明天 要 跟 谁谁谁 开会, 请问 你的 哪些 功能 对我 有用, 他 也可以 告诉你。 所以 我 觉得 可 发现 性 已经 变成 了 一个 自然语言 问题, 其实 反而 没有 早期 那么 严重 了。 On board 这个 问题 我 觉得 他 可能 其实 就 是从 某种程度 来讲 是一个 文字游戏, 对 吧? 你 管 它 叫 APP, 还是 管 它 叫 service exit?
这点 上 没错, 就是说 文字游戏 之外, 我 觉得 这个 东西 是 必须 需要 的对 吧? 对。
他说 我 接入 了 很多 service, 但 我没有 APP, 这 可能 是 他说 的 一个 做法。 但 在我看来 APP store 体现 的 是 另一种 能力。 如果你 只有 十个 service, 比如说 calendar 对 吧?
日历 第一代 的 iphone 它 没有 APP, 但 它 可以 接入 不同 的 日历。 因为 日历 是一个 交互 模式 完全 一样的 提供商, 我 用 谷歌 的 日历, 我 用 微软 的 日历, 他们 可能 1% 的 功能 不一样, 但是 99% 的 功能 是 完全一致 的。 所以 确实 我没有 必要 安装 一个 独立 的 日历 的 APP。
但 之所以 APP 这么 有意思 的 原因, 是因为 APP 允许 一个 提供商 对 他们 自己的 服务 做 定制。 比如说 我不知道 叫 super human, 好像 它 对你 收发 email 的 这个 过程 做了 一些 修改, 这种 功能 就 不属于 你可以 用 一个 service 方法 来 替代 的。 因为 它 提供了 一些 不同 的 功能, 它 给 用户 提供 的 界面 不一样 了, 这个 时候 你 才 需要 APP。 所以 我 觉得 对于 他 这种 一个 新的 硬件 来讲, 第一代 的 硬件 不支持 APP, 其实 是一个 我 认为 比较 稳妥 的 方案。
就像 第一代 的 iphone, 它 也 不支持 APP。 因为 当 你的 交互 没有 被 大家 非常 确认 的 时候, 任何 第三方 提供 的 A P P 都会 把 你 往旧 的 交互 模式 上去 带。 然后 最后 你的 这个 产品 就 变成 四不像 了。 所以 他 最 开始 的 时候 从 功能 上 就是 所有 功能 都是 第一 方 提供 的。 他 可能 有 第三方 的 接入, 但是 他 功能 都是 第一 方 提供 的。 只有 大家 非常 熟悉 这个 功能 是什么 样子 的 时候, 才有可能 出现 第三方 提供 的 功能。 这个 时候 才是 真正 的。
我 觉得 你说 这个 确实 一个 上了 一个 高度, 就是说 这个 实际上 进入 了 一个 开发者 生态 管理 的 一个 问题。 对对对, 从 这点。 来说 不支持 APP 或者说 不支持 第三方 APP, 我 觉得 是 非常 好。 但是 那就是说 他 这里 边 说 的话 实际上 又 玩 文字游戏, 对 吧? 他 可能 想说 的 是 他 目前 不支持 第三方。
对他 没有 支持。
全部 用 第一 方 的 O K 从 这个 角度 来说 合理。
那 我们 是不是 可以 理解 说 他 现在 的 这个 硬件 对于 所有人 来说 都是 一样的, 对 吧? 你 没有 太多 可以 定制 化 的 东西。
对, 但 比如说 我 可能 接入 我的 slack, 你 接入 的 是你的 slack, 所以 可能 我们 说 的话 都 不完全 一样。 但是 功能 上 是 一样的, 就是 没有 任何 第三方 提供 的 功能。
我 觉得 从 这个 意义 来说, iphone 也是 这 样子, 你 每个 人都 可以 下载 到 同样 的 APP。
但是 我 其实 还想 就 那个 discovery 的 问题 有 一些 疑问。 刚刚 jacky 你 有 提到, 你说 你 现在 可以 问 大 模型, 你可以 对我 的 日历 做什么? 他 会给 你 一个 非常 长 的 列表。 但是 我不知道 大家 有没有 打过 客服 语音 电话, 特别是 银行 系统 的, 他 会给 你 一个 非常 长 的 什么 按 一、 什么 按 2、 什么 按 9。 通常 情况下 我 觉得 我是 没有 耐心 去 听。
完 这个 来着。
对对对, 所以 如果 它是 一个 文字 界面, 一下 发给 我 九个 选项, 我 可能 会 非常 快 的 选择 1到9 我要 哪一个, 然后 再 跳 二级 菜单。 但是 如果 大 模型 它是 用 语音 来 一个字 一个字 的 给我 念 这个 有 哪个 功能 的话, 我 可能 不太想 听。
这个 不需要, 就是 像 他 现在 是 有 U I 的 图像 的 交互 模式 的, 这点 上 应该 不是 一个 问题。
对我 觉得 这是 第一个 点。 第二个 点 其实 还是 discovery 的 问题。 你们 想想 在 手机 上 最 火 的 A P P 是什么? Tiktok、 facebook, 就是 让 你 沉迷 的 这些 APP 都 是什么 算法? 给 大家 推荐 东西 就是我 很懒, 我 连 我想看 什么 我 都不 想想我 就 想他 推荐 给我 好玩的 东西, 我 就 不停 的 刷。 我 觉得 让 一个人 主动 去 发现 跟 设置, 跟 告诉 这个 APP 他 想 做什么。
那 只有 极少数 的 情况 就是我 对我 的 目的 非常 清楚。 就 比如说 我要 订 酒店, 这个 就 涉及到 刚刚 大家 提到 的 很 复杂 的 问题 了。 但是 如果 假设 我 现在 是 很无聊 打发时间, 我想要 听歌, 我 甚至 都 不知道 我想要 听 什么歌。 我 都 希望 spot five 直接 他的 那个 首页 是 能 给我 有 一些 推荐 的。 就 比如说 我自己 做 博客, 我 经常 都 不知道 我 想听 什么 博客, 所以 我要 去 看 小宇宙 首页 给我 推荐 了 什么。 所以 我是 在 想 就是 discovery 可能 还是。
一个 挺 大 的 问题。 我 觉得 这一点 上 来说, AI 想 把 人们 从 无聊的 环境 中 替换 出来, 可能 是 更 就 这么说, tiktok 或者说 用 推荐 算法 把 大家 进行 一个 无限循环 的 这样的 一个 模式。 这 只是 一个 模式, 不见得 是 值得 让 大家 努力 方向 的 一个 模式。 所以说 对我 我 非常 同意。 对, 在 这点 上 他们 不 这么 做, 也 我 觉得 是 好事儿, 对 吧?
而且 其实 这里 有 两个 discover ability 的 问题, 一个 问题是 怎么 发现 内容, 我 觉得 他 完全 不就 发现 内容 的 东西, 从 某种程度 上 它 可能 更多 的 是 跟 现实 世界 的 东西 做 交互。 可能 你 发现 内容 方式 是 你走 到 一个 不同 的 地方 去, 所以 他 可能 发现 内容, 这 可能 也是 一个 问题。 就是说 有 多少 人 每天 他 主要 的 交互 是 跟 线 是 世界 的 东西 交互。 其实 很多 人的 工作 每天 做 的 事情, 比如说 我 一周 花 几个 小时 去 买东西, 对 吧? 他 买东西 这个 case 到底 对我 来讲 有没有 用, 我 觉得 这 可能 是一个 问题。 当然 就 我们 刚才 主要 说的是 这个 功能 的 发现 问题。
那大 模型 有一个 还有一个 好处 就是 比如说 siri 对 吧? 就是现在 从 NLP 角度 来讲, 旧 的 模式 一直 都是 把 你说的话 归成 一类 功能, 然后 他 就 实现 这 功能。 这个 时候 就会 出现 那种 我说 了 一件 很 复杂 的 事情, 他 就 直接 把 我 归成 了 一个 某个 小的 类, 然后 他 就 做 完了, 然后 他 根本 不做 的 不是我 想要的, 然后 就 结束了。
大 模型 在 我的 测试 下 完全 有 能力。 第一, 如果 它 没有 这个 功能, 它 可以 实现 一半。 然后 并且 告诉你 它 只 实现 了 一半, 告诉你 什么 没有 实现。 这样的话 可以 让 我 更加 愿意 去 跟 他 交互。 然后 另一方面 来讲, 它 有 一些 做 我们 叫 compositionally, 不知道 这 该 怎么 翻译, 就是 组合 一些 功能 的 能力 分解 一个 任务。 对对对, 它 可能 总体上 来讲 就是 覆盖 的 人 能 做 的 事情 变得 更 多了。 所以 这 可能 也是 个 优势, 就是 大 模型 的 一个 优势。 可能 未来 就 会有 更多 的 功能 能够 被 支持, 然后 可能 discover 的 问题 也会 稍微 少 一点点。
个人感觉 如果说 是用 语音 的 模式 做 一个 相对 比较复杂 的 任务, 它 不是 一个 很 好的 OK。 因为 其实 这么 想, 人 在 处理 一个 复杂 的 事情 的 时候, 就像 你说的, 我要 分 步骤。 我 如果说 步骤 中间 出了 错误, 状态 出了 错误, 我是 其实 没有 办法 迅速 告知 我的大 语言 模型。 你是 在 非常 precise, 用 语言 的 方式 告诉 他是 哪一个 东西 出了 问题。 可以。
这个 叫 back trace。 在写 在 中 我。
觉得 这么 思考, 就是你 如果 觉得 拉拉 猫 的 边界 在哪儿 呢? 其实 这个 问题是 这样的, 就是你 觉得 拉 这辆 model 的 边界 在哪儿? 如果说 你 觉得 largely model 能 帮助 你 第一 方面 能够 完全 分解 任务, 然后 他 还能 保证 你 百分之百 的 解决 这个 问题, 而且 没有 任何 的 lusnia 的 问题, 我 觉得 有可能 做到 这个 事情。 但 现在 这个 lot more 确定 能不能 做到 这个 事情, 我 觉得 还是 有 个 question mark 在 这儿 的。
我自己 的 研究 有 一些 做 这个 就是 我会 把 人 说 的话 分解成 一个 我们 自定义 的 机器语言。 我们 现在 的 基本上 就是 可以 看到 人 如果说 的话, 在 我们 支持 的 这些 操作 列表 里面, 我们 可以 生成 非常 长, 就是你 说话 可能 特别 复杂。 比如说 我 有一个 幻灯片, 我 幻灯片 里 我想 把 所有 橘色 的 框框 里面 的 字 都 变成 粗体 的对 吧? 这 可能 生成 出来 那个 代码 可能 需要 调 四五个 函数, 五六个 函数, 甚至 快 十个 函数。 即使 这么 复杂 的 这样的 一句话, 它的 分解 的 成功率 也 在 90% 以上。
但 会有 个 问题, 我 怎么 知道 你 能 做 这个 事情 呢? 我 怎么 知道 你 这 能 做到 90%? 那 10% 是谁 告诉我 你 做不到 的 呢? 对对对, 这 可能 说 这 还是 回到 了 discovery。
不过 那 10% 不是 discovery, 是 10% 是 会 pass 出错。 这个 时候 可能 就 需要 我们 把 我们 干 的 事情 告诉 用户。 所以 如果 他 发现 我们 干 的 不是 完全 他 想要 干 的 这件 事情 的 时候, 你 可能 可以 修正 一下。
对, 这就是 语音 的 局限性 了。 你 告诉我 你 10% 出错 了, 我 从 哪 去 pick up 那 90%?
对, 因为我 实际 觉得 我 实 我 实际 觉得 我 觉得 没有 那么 大 的 问题。 一方面 我 对 目前 的 A I 的 能力 我是 比较 怀疑 的, 但 从 另一个 角度 来说, 在 这类 语音助手 这类 意义 上 的 事情 来说, 我是 非常 相信 他 可以 做到。 只要你 提供了 那个 A P I 他 可以 做到, 就是你 让 他 干什么 他 就 干什么。
对我 怎么 知道 你 给我 了 什么 A P I 呢?
你 问 呗, 不就 像 刚才 他说 这个 幻灯片 这个 例子。 对你 告诉他 这 样子, 他 可以 告诉 你说 OK 我可以 帮你 把 这些 东西 都 修改, 但是 我 修改 之后 我不能 保存, 因为我 傻, 你可以 自己 点一下 保存 吗? 这 样子 完全 可以。
这个 东西 我 觉得 咱们 往 稍微 远 一点 说 一点。 我 之前 有 一期 节目 我 提 过 这个 事情, 就是 在 很久 之前, 好几年 前说 特斯拉 自动驾驶 这个 问题。 自动驾驶 特斯拉 的 为什么 做 的 大家 的 接受度, 至少 对于 真正 特斯拉 车主 来说 接受度 非常 高, 相对 别的 公司 的 车 接受度 这么 高 呢? 因为 实际上 比 很多 公司 的 车 都 已经 有 车道 保持 什么 这样的 功能 交互。 就是 他 会 告诉你 这样的 反馈, 他 会 告诉 你我 看到 了 什么, 没有 看到 什么, 他 会 告诉你 他 将 会 走 哪条 道, 这是 非常重要 的。 包括 现在 威猛 各种 自动驾驶, 他们 都都 需要。
就说 是 对于 这种 他 要 替 你 做 一些 事情 的 时候, 他 一定要 给你 明确 的 反馈, 明确 的 信息, 说 我 将 做 这些 东西, 这些 东西 我 做不了, 做不了, 都是 你来 借款 就行了, 不是 什么 大问题。 所以说 像 刚才 回到 这个 问题, 我们 告 给他 一个 非常 长 的 指令。 他 现在 语言 模型 我 非常 相信 他 可以 做到, 说是 OK。 你 要 让 我 做 这件 事儿, 我 把 它 可以 分解成 这么 几条。 分解 出来 的 结果, 这条 我 做不了, 剩下 东西 我 能 做, 这点 需要 你来 帮忙 做 一下, 剩下 的 东西 我 来做。
我不 怀疑 现在 大 语言 模型, 这 恰恰 就是 语言 理解 和 分析 的 一个 部分。 大 语言 模型 完全 可以 做 这件 事情, 他 不能 做 的 事情 可能 是 另外 的 我们 可以 讨论 的 问题。 但是 在 这个 问题 上, 我不 怀疑 他的 问题。 所以说 我 觉得 discribed 不是 问题。 他们 要 做 这件 事情, 包括 我说 用 一个 APP 的 形式, 不管 是 什么样 的 形式, 让 A I 提供 一个 作为 一个 全知全能 的 人 帮你 满足 你的 愿望。 我 觉得 在 这个 事情 上 没有 任何 discovery 不是 一个 问题。
好, 我们 继续 往 下 看, 这个 环节 非常 有意思 了也 是我 今天 为什么 去 邀请 A R V R 界 的 嘉宾 来?
Ay songs from famous size I films got my music controls。 If I go the left and go back, I go the right, I can keep, I was to go down. 他们的 交互方式。
是 把 AI ping 投影 到 手掌 上, 关上 手掌 就是 回到 主菜单。 手掌 的 拇指 跟 食指 点击 一下, 就是 切换 到 下 一项 菜单。 比如说 如果你 正在 播放 一个 音乐, 那 暂停 也是 拇指 跟 食指 触碰, 点击 一下 这个。
交互 模式。 用过 quest 的 人都 只能 说 无力 吐槽。 这种 空手 手势 我 觉得 没有 什么。
为什么 我 看起来 非常 好用? 我 给 听众 解释一下 他 现在 的 交互 模式, 就是 拇指 跟 食指 点一下, 然后 他 就 换 一个 界面, 点一下 他 就 换 一个 界面。 我 觉得 这 是一个 看起来 非常。
用户 实时 的, 但是 实际 的 问题是 有 几点。 第一, 如果 你看 quest 之前 的 使用 模式, 快速 的 也是 用 这个 手势 这样的 处理。 第一 手势 在 凭空 点 是一个 很 脑残 的 行为, 说实话。 第二 就是说 这个 识别 的 准确度 有没有 像 他 视频 中 这么 流畅, 我自己 比较 怀疑, 因为你 如果 看 快 死 效果 的话, 就是说 是你的 手势 触摸, 或者说 跟 他 这样 点, 这样的 操作 大概 90% 可以 work, 但是 总有 那么 的 一些 不能 work 的。 或者说 它 会有 比较 长 的 延时, 各种 的 它的 交互 体验 会 非常 差。 凭空 这样的 点, 说实话 又说 回来, 刚才 的 这个 功能 在 手机 上 实现 不会 舒服 多 吗?
我 觉得 quest 挺好用 的, 我 可能 因为我 比较 用 A R V R 之类。
我 做 的 是我 是看 怪不得 我们的 产品 OK。 对, 但是 对我 照样 可以 吐槽 他 OK 不好意思。
没 没事 没事 没事, 我 我 我们 我 我也 我 我没有 invest in any 快乐 like 我 觉得 他的 问题 主要 还是 就像 你说的 一样, 它 不如 手机, 我 觉得 这个 是 它 最大 的 问题。 首先 用 投影仪 再加上 手 做 交互 这个 事情, 其实 大概 这 是一个 十年 前 或者 15年 前 人机交互 领域 比较 多 研究 的 内容。 当时 大家 比较 喜欢 的 是, 比如说 用 身体 的 界面 做 投影 的 这个 介质, 对 吧? 然后 你 再 用 另一只 手机 交互, 我 他 这里 在 刻意 的 避免 用 另 一只手, 因为 本来 手机 你可以 一只手 操作, 对 吧? 因为 它是 投影 的 这个 问题 导致 他 必须 得 两只手 操作, 然后 它 就 只能 通过 这种 倾斜 的 方式, 其实 它 能够 给你的 输入 的 这个 维度 非常 有限。 对, 维度 非常 有限。 对。
还有 你们 都 觉得 这 不是 一个 好的 交互方式, 就是 这个 手 是 这样, 两个 手 click 一下, 它 不是。
一个 好 手势 交互, 我 觉得 可能 还行。 单说 click 这个 话 真的 只是 一个 一维 的 一个 交互, 就是 它 几乎 只能 有 这 一种 书, 就是 click 有 click 没有 click, 这个 我 觉得 是 不可 接受 的。 当然 如果 它 有 角度, 但是 即使 这样的话, 它的 维度 说实话 吐槽 那么 多。 Quest 在 里边 如果 有 controller 的 情况下, 可以在 三维 中 进行 绘画。 这种 交互 是 无可 你 没有 任何 一种 现有 的 交互 模式, 能够 让 你 能够 在 三维 中 如同 在 真实世界 一般 去 绘画, 做 一个 雕塑 3D的 雕塑, 这是 V R 里边 的 这种 交互 不可 替代性。 而 他 这个 他 哪 点比 手机 好了?
对我? 我也是 同意 这个, 我 觉得 他是 在 把 屏幕 砍掉 的 情况下, 强行 又 创造 出来 了 一个 屏幕。 还有 个 我不知道。
你 什么时候 去 google 的, 16年 OK, 我 不记得 是 到底是什么 时候。 之前 google store 就是 google 那个 那 什么 store, 他 有 卖 一个 激光 投影 键盘 的。
我见 过 那个 对 吧? 所以 我 当时 看到 你的第一 反应 就是 他 为什么 要 单手 那么 慢 的 操作?
你 用过 那个 激光 键盘 吗? 这 操作 怎么弄? 巨 难 用, 巨 难 用。 还 不说 你 按键 的 时候, 你 投影 会 被 你的 指头 挡住, 这 还是 另 说 的 问题。 就 单纯 本身 这个 无 反馈 对 吧? 这个 反馈 不管 是你 在 敲 桌子 还是 敲 手, 这个 反馈 和 敲击 键盘 的 反馈 是 完全不同 的。
我 其实 想说 它是 两点 东西。 第一个 是 你看 他是 非常 静止 的 在那边 操作, 如果 在路上 走 的 时候, 你 就是 晃 的 跟 那个 什么 我 都 看不清 上 我 手上 的 东西。
别提 路上 了, 他 这 投影仪 在 室内 能 看见 就 不错 了。
对对对, 而且 你 不同 的 这个 手掌 的 颜色, 你就是 每个 人的 肤色 又 不一样, 你 头上 的 效果 肯定 是 不一样的。 对。
就 拿 点比 手机 的话。
就 可能 对 效果 很。
这是 第一个。 然后 第二个, 其实我 觉得 悬空 vision pro 做 的 很 好啊。 对, 因为 其实 它的 camera 阵地 非常 多, 所以 他 其实 帮你 把 整个 人 在 3D里边 其实 虚拟 出来 了, 对 吧? 所以 他 这个 其实 就是 完全 只是 用 一个 camera 实现 了。
他 有 深 他 可能 有 深度 性, 他他 有 深度 性, 他说 了 有有 深度 和 motion sense。
对, 那 我 觉得 他 有 深度, 而且 他 这个 角度 我 觉得 它 完全 可以 做到 非常 高 精确度 的 这个 手势 的。
产品 O K 对, 就是说 维度 还是 太低。
输入 维度 低 是对。
而且 我 觉得 它 可能 也 限于 它 算 力 的 影响, 就 这个 device 它 不一定 能够。 因为我 知道 看 他 那个 demo 它的 帧率 非常 的 低, 其实 它的 刷新率 很低, 它是 你 操作 完了 之后, 它 大概 01秒左右 它 才有 反馈, 对 吧?
你说你说 这个 有 这。
这 都 已经 不是 刷新率 低 的 问题, 这就是 体验 室, 这就是 回到 是 大家 对 物理 的 这种 触摸 最 要求 的 就是 反馈 是 吧? 是 我 先 不说 跟 键盘 相比 这种 物理 反馈 的 手感 区别, 它 甚至 它的 U I 也 做不到 有 及时 的 这个 就 更长。
所以 我就是 应该 在 各种 维度 上面。
它 这就 是不是 个 很好。 对我 觉得 这点 上, 单纯 这个 交互 上, 我 觉得 真的 是 差 很多。 就是 这个 思路, 这个 方向 我 觉得 非常 好的。 哪里 比 手机 好的?
我问 一个 比较 小白 的 问题, 比如说 他 刚刚 在 调动 歌曲 的 时候, 他说 给我 播放 一些 科幻电影 类似的 歌曲。 我 好奇 他的 曲库 是 哪儿 来 的, 或者说 他 能不能 精确 的 给我 播放 一首 Taylor swift 的 什么歌。
我 觉得 这里 边 有 好几个 点 可以 去 提。 但是 他 实际 提到 了 他们 调用 那个 服务 叫 title, 这 他 已经 提到 了 他 调用 那个 服务 来 提供 音乐, 这点 上 已经 解释 了。 实际上 但是 实际上 这里 边 提 了 一个 非常 有意思 的 点, 就是 他 怎么 选 歌, 对 吧?
实际上 这 又 回到 了 一个 是 这个 大 模型 或者 ChatGPT。 GPT 现在 最新 的 版本 是 二三年 4月的 training data, 也就是说 是在 这 之后 发布 的 歌 他 应该 都 不知道, 但是 你说 他 能不能 知道 也是 可以 的。 如果 他 能够 帮你 精确 的 去 找 他 做 一个 search, 把 东西 返回 来 作为 context 丢进 大 模型 里边 可以 理解。 但是 你 让 大 模型, 刚才 他 这个 问题 给我 一首 科幻电影 里边 的 一首歌 这个 功能。 它 这 样子 意义 上 的 一个 搜索, 可能 真的 需要 让 它 内化 的 这个 知识 才能 去做。 不是 完全 不可以, 就是 多次 调用 搜索, 但是 就说 是 能 做, 但是 这 恰恰 就是 现有 大 模型 比 传统 的 A I sisters, 就是 google siri 对。
所以 它是 一个 模糊 的 搜索, 它 不是 一个 精确 的 搜索, 反而 是 模糊 的 搜索 大 模型 做得 更好 的对。
而且 不一定 它 可以 做 精确 搜索。 他 这种 情况 如果你 告诉他 一个 精确 的 东西, 他 可以 去就 像 比如说 你 如果 用 B 的 那个 chat, 他 把 你的 东西 理解 了 之后, 他 去 丢进 搜索。
把 搜索 的 结果 拿 过来。 我 指的 是 他 精确 搜索 了 以后, 他 也 可能 会 受制于 他的 版权 库 的 限制。
这是 完全 另外 的 一个 问题。 他 有可能 会 告诉你, OK 这首歌 我 找到了, 但是 我 播 不了, 那 我 就 帮你 播下 一首歌。
我 觉得 他 那个 挺 有意思, 我 怀疑 就像 你说的 一样, 他 现在 做 这个 demo, 包括 他 可能 想 短期内 做 的 这个 系统, 他 就是 用 大 模型 已经 记住 的 知识 去 可能 就 够了, 去 找 这个 知识库。 对, 但 其实我 觉得 这 也 挺 怪 的对 吧? 比如说 我 跟 apple music 上 会, 我可以 跟 他说 我想 播放 一些 that say dance music。 那 他 就会 拿 一些 新的 dance room music。 如果 要是 我说 我想 播 一些 dance muc, 他 给我 播 了 那种 十大 最佳 dance music, 我 听 两天 就 腻 了, 对 吧?
对我 觉得 这个 确实 也很 有意思 一个点 就是 他 怎么做 这个 variety? 但是 实际上 是 这 样子 的, 这个 东西 可能 也 没 那么 复杂。 就是说 你说 单词 music, 他 就是 OK, 是因为 我猜 你 会 想要 新的, 于是 我 就 去 搜 一下, 搜 一下, 然后 给你 播 一首。 这时 有 多少? 但是 话 又说 回来, 我 刚才 也 说 了, 说实话 这个 视频 我 还没有 看过。 但是 当 他说 那个 3 fiction movie song 的 时候, 我第一 反应 他。
肯定 会说 那个 是 太 2001 太空漫游 的 片头曲。 对。
并且 他 确实 播出来 了。 而且 怎么说呢? 他 确实 就是 如果你 大家 说 一个 科幻电影 最 典型 最 硬核 意义 上 的 就是 一个字 科幻电影 的话, 大家 可能 就会 想到 那个。
然后 查拉 图斯 如是说。
对 那 上来 这个 是不是 就 恰好 回到 我们 刚 说 那个 问题, 就是 100个人 问 这个 问题, 他 可能 真的 会 回答 这个。
对我 觉得 他 这个 demo 让 我 感觉 他 一定 是 直接 问 大于 弦 模型。 他 还有一个 办法 就是 他 把 你说的话 翻译成 某种 query language 对 吧? 然后 他 再去 曲 库里 去 找。 但是 他 这个 demo 让 我 感觉 他 好像 不是 这么 做 的。
这个 实际上 又 恰好 回到 我们 刚才 说 的那 discover ability, 就是 那个 内容 意义 上 的 discover 的 问题 了。 就是说 是 他 能不能 做 推荐。 说实话 这个 我 觉得 是 完全 另外 的 一个 必须 探索 的 方向, 只是 他们 可能 对于 他们 这个 功能 来说 不是 那么 关键。
所以 这 其实 挺 有意思 的, 就是 大家 都说 A I A I 但是 其实 他们 强调 的 A I 似乎 主要是 L M 比如说 像 推荐 算法 这样的 A I 他们 好像。
没有 太 看啊, 这是 另外 的 一个 问题 了。 比如说 我们 做 的 东西, 我们 做 主要是 在 仓 这类 管理 的对 吧? 它 实际上 就是 视觉 上 的 A I 现在 都 不算 A I 了 是不是? 所以 这个 这个 我 觉得 属于 更多 的这 可能 就 跟 比如说 投资环境 各方面 的 有关。
现在 最 火 的 是什么 大 模型, 而且 是 语言 模型, 就是 几乎 唯一 限制 的 语言 模型。 因为 从 某个 角度 来说, 大 语言 模型 是 目前 我们 看到 唯一 有可能 会 通向 A G N I 的 路线。 如果 这 样子 的话, 那就 很 合理 了, 继续, this is an A I browsing the web。
接下来 的 视频 就 讲 了 一些 他 跟 手机 相似 的 一些 功能 了。 比如说 他说 他 可以 用 A I 来 总结 他的 日历表 上 今天 的 各种 信息, 或者 使用 语音 来去 搜索 信息。 我 举 个 例子, 就是 他 视频 里面 说 tell .
Andrew i'll be there later tonight。
Your message to Andrew says i'll be there later tonight OK.
我们 可以 告诉 Andrew, 我 将 会 晚一点 到 给他 发 一个 信息。 当 他 要 说话的 时候, 他 就会 去 按 一下 这个 设备, 这个 设备 就会 有一个 提示音。 然后 他 把 他 要说 说 的 语音 转换 过去, 然后 再 按 一下, 这个 语音 发完 了 以后, 这个 设备 就会 自动 把 他的 信息 发给 android 这个人。 同时 他 也可以 按 一下 就让 设备 开始 打电话。 那 总体上 来说, 感觉 这个 就是 一个 看起来 在 联系 过程中 更加 便捷 的 一个 方式, 也是 传统 的。 比如说 像 siri 或者 google assistant 在 经常 做 的 一个 方式。
看到 这块 儿, 我 实际上 就是 他们 这个 做法, 像 类似 于 做 一个 O S 一样的 一个 东西, 或者 一个 纯 硬件 完全 的 一个 模式, 可能 还 确实 有一点 好处。 Message 这个 东西 如果我们 要 用 A I assistant, 就是说 传统 的 比如说 siri 或者 goole system 来 实现 的话, 也 必须 由 google 或者 苹果 来做。 大概是 这样的, 是 否则 的话, 你 要 获取 完整 的 message 信息, 本身 就是 一个 block 就。
苹果 跟 谷歌 不会 给你 这个 权限, 就是 任何 APP 它 可能 很难 调用 这个 权限。
第二, 你 要 做到 像 刚 他 刚才 做 一件 事情, 就是 告诉我 那个 get code。 如果我 message 非常 多 的话, 我 让 这个 message 的 量 超过 大 模型 的 这个 context 量 是 很有可能 的那 怎么样 实现 它 可以 找到 我 这个 get code 呢? 实际上 很有可能 需要 是 他 要 对 这些 你的 所有的 text message 做 一个 index, 做 一个 类似 于 vector 这样的 index。 你 能够 通过 这样的 方式 用 相关 的 东西 去 查找。 那 要 实现 这些 东西 都 需要 参 在 操作系统 上 支持。 就说 是我 不光 要 能够 调用 拿到 你的 所有的 message, 并且 我 还要 从 基础 的 意义 上, 我 对 你的 所有 康泰 信息 都 一直 做了 类似 于 indexing, 就是 做了 索引 才能够 让 A I 能够 把 它 调用 出来。
我 觉得 这点 上 确实 有 一定 价值, 但是 他 没有 真正 跳出 这个 圈。 就是说 我 确实 把 我的 所有的 短信 或者 邮件 都 转发 到, 比如说 google 又 回到 这个 如果 为什么 goole 不能 做 这件 事情, google APP 为什么 不能 做 这件 事情? 我还是我 没有 找到 一个 理由。 到 目前为止 什么 是 大公司 一般 都 动作 比较慢, 对 吧? 另外 的 事情, 对对对。
我 给 听众 也 简单 的 总结 一下, 他们 其实 刚刚 就是 让 他 去 发 信息, 然后 信息 说 你 能 不能用 一种 更 兴奋 的 方式 来 给 人 发 这个, 我们 几点 见面, 然后 还有 就是 打电话, 还有 就是 总结 你 所有 手机 上 的 信息, 包括 会 调用 一些 比如说 我的 什么 门 的 密码 是 多少 这 一类 的。 其实我 是 觉得 他 其实 完全 就是 一个 手机 可能 更 适合 的 一个 场景。 但 他 这个 可能 他们 也是 想要 去 替代 手机。 所以 他们 就 想说, 如果我 不用 手机 来做 我们 这个 智能 硬件 行不行?
我 觉得 在 这种 意义 上 来说, 他 先 做 一个 手机 的 APP, 把 这些 东西 都 做好 了。 绝大多数 这些 功能 都 做好 了 之后 说 OK 我可以 超越 手机。 我 用 自己的 phone factor, 自己的 更多 的 掌控, 可以 把 它 可以 做出 120% 的 功能, 而 不是 现在 的 90% 的 功能。 这个 我 觉得 可以, 但是 他们 现在 离 那 90% 还 远 的。
对, 而且 我 最 好奇 的 一点 就是 如果你 要 去 总结 最近 我 邮箱 里面, 所以 我 收到 的信, 他 其实 需要 调用 我的 邮箱是 什么的。 包括 他 还要 总结 我的 短信 的话, 他 其实 是 需要 我的 手机 的 很多 功能 接口 的那 如果 谷歌 或者 苹果 他们 没有 去 开放 这些 功能, 那 他们的 基础 信息 跟 基础 数据 从 哪 来 呢? 这个 后 的 关系 我 觉得 很很 就是 刚才 说 那个。
接入 的 那个 问题, slack 或者 什么的。
他 他 之所以 有 短信, 是因为 他 自己 有 电话号码, 他 这个 设备 自己 有 自己的 电话 号 和 自己的 短信。
但 我们 现在 大家 都 把 手机 拿 过去 吗?
对, 这 是一个 问题。 就是说 它 其实 完全 没有 描述 你的 手机 是 怎么 变成 这个 设备 的, 就是 这个 transition 升级 的 转换 的 路线 是 怎么样 的。
你 怎么 大家 其实 真的 是用 短信, 平时 在 打电话 发 信息 吗? 我们 其实 比如说 在 中国 用 的 是 微信, 在 美国 用 的 是什么 WhatsApp、 telegram. 大家 其实 也 不太 用 短信 了, 短信 都 是用 收 验证码 的。
他 好像 后面 写 了 他的 这个 接入 有 slack.
如果 没 记错 了, 这个 说实话 对, 什么 能 接入 都 接入, 这个 就是 那样的 事儿, 就在 说 这个 search 就是 找到 get code 这个 过程。 这个 过程 实际上 要 实现 这个, 就像 你说 similarity search, 这也是 我 觉得 如果我 要 实现, 我 可能 第一个 尝试 的 方法。 但是 如果 实现 这个 的话, 就 相当于 他在 需要 从 O S level, 就是 把 你的 所有的 这些 相关 的 信息 都 inx, 都 先 做了 index。 这 可能 就是说 为什么 一个 对 你的 信息 更 全职 全能 的 一个 O S 或者 更高 的 层级 的 一个 东西 才能 实现 这个。 但是 我 现在 后来 又 想 了 一下, 我 觉得 这 东西 你说 research, 但是 我 能不能 在 这个 search 实际上 用 大 语言 模型 生成 一堆 search 词, 然后 用 传统 的 surge 再 把 这个 东西 找到 拿出来。 就是说 是 它 仍然 可以 通过 说 generation 这 完全 也是 可以 的。
总之 你 得 有 这个 数据, 但是 至于 你是不是 O S 倒 不一定。
对对对, 我 就 想说 甚至 有可能 都 不需要。 就是说 这个 又 回到 了 手机 真的 还能 做。
比如说 我记得 挺 逗 的, 前 一段时间 不是 一家 有一个人, 他 后来 不在 一家 干了, 然后 自己 搞 了 一个 叫 nothing 的 公司。 然后 他们 公司 不是 整 了 一个, 他 为了 能够 跟 I O S 用户 发 blue bubble, 发 imessage, 然后 他 跟 另一个 公司 合作。 公司 他 做 的 业务 就是你 把 你的 apple I D 的 账号密码 给他, which is questionable. 但是 你 如果 比 把 你的 apple I D 账号密码 给 他他 可以 帮你 接收 imessage, 然后 转发 到 android 上。 所以 理论上 来讲, 你 做 一个 同样 的 service, 你 就可以 了, 可以 获取 这个 用户 的。
就是你 你 把 所有的 短信 都 转发给 我, 把 你的 所有的 邮箱 都 转发给 我, 我 就可以 帮你 index 合作。 对对对。
O K 它 其实 这个 东西, 因为我 知道 有 一些 公司 在 做 personal search, 就是 exactly 你 刚才 说 的 这个 东西。 我 把 我的 邮箱 slack 所有 东西 都 过 一个 中转站, 这个 中转站 就 负责 帮 我 把 这些 信息 备份 存储。 然后 我 任何 需要 这个 信息 的 时候, 我 就 问 这个 中转站, 你 帮我找 一下 这个 相关 信息 就 好了。 肯定 是 可以 实现 这个 功能 的, 我 觉得 我 实现 肯定 是 没有 问题, 关键 是你 用 什么 手段。
而且 这个 公司 我 感觉 上来 就 它 也 不是说 我的 软件技术 比 别人 强, 它 其实 也就是 他 做 硬件。 那 他他 是一个 design company。 对, 跟 他 交互, 他 就是 想做 交互 这方面 的对, 但是 我 一直 还是 觉得, 包括 你 跟 他 说话的 时候, 你 也没有 任何 的 private 不 没有 没有 任何 的 隐私, 他 跟 你说的话 也没有 任何 隐私, 这个 可能 会 是 大家 跟 他 交互 的 一个 对他 就 提到。
他 有一个 叫 sound bubble.
就是 没有, 其实 这就是。
sound bubble 是什么 意思?
就是 他 刚才 说 是一个 声音 的 一个 气泡 模式, 就是说 是 只在 一个 小的 范围内 你可以 听 得到。 这个 从 声场 的 角度 来说, 我 觉得 理论上 可能 可以 实现。
但是 我们 待会儿 可以 再聊 这个 问题。 这个 东西 我知道 的 还 挺 多 的对。
我想 先回到 刚才 这 第一个 问题, 就 jacky 说 的 这个, 其实 郭思 森 当时 在 做 的 时候, 最早 也是 遇到 同样 的 问题? 你的 所有 跟 他的 交互 全都 是 语音, 但 这个 模式 是不是 有 privacy 问题? 就是我 在 一个 路上 我 突然 走着 说 OK google 已经 把 你 唤醒 起来 了, 别人 觉得 就像 看 傻子 一样 看着你。
对不对?
后来 给你 提供了 一个 我说 说 brin 家的 access code.
是 他 就是 在 他 就是 在 你 在 地铁 上 是 吧?
所以 他 就是 语音 的 声音, 就说 就是 无论 他 再 怎么 private, 他 都 是一个 speaker 对 吧? 对你 肯定 不会 有一个 耳机 的 好, 或者说 他 不 肯定 不会 有一个 文字 的 这个 效果 好。
干嘛 不用 手机? 而且 我 最 好奇 的 是, 他们 既然 要 做 一个 基于 语音 去 交互 的 东西, 他 为啥 不配 一个 耳机? 这 不是 很 简单 的 事情 吗?
对我 觉得 你说 对, 就是我 知道 有 公司 专门 做 24小时 的 耳机, 你可以 戴 在 耳朵 里边, 它 可以 帮你 收音。 然后 你 也可以 随时, 就 比如说 打电话 去, 他 都 可以 帮你 实现。 我知道 有 公司 在 做 这个 事情, 你 确实 是个 好 问题。 但是 我 觉得 他 还要 给你 强调, 我给你 看 东西, 对 吧? 它的 context 除了 声音 之外, 它 不是 还有一个 环境 的 就是 视频 吗?
寄自 以 心 为 形义 作为 人, 你的眼睛 和 你的 耳朵 没有 找到 一个地方 就是 一个 原罪, 是不是?
好。
我们 继续 是 ones。
好, 视频 接下来 展示 的 是 两个人 在 说话, 这个 A I pink 可以 同步 把 英文翻译 成 西班牙语。
We are almost ready to ship the final version.
不是 这个 东西 又 回到 了 手机, 为啥 不 一个 google translate, 是不是 这个 问题 完美的 解决, 而且 对方 可以 直接 看, 比 听 要 容易 的 多。
对, 会 它 里面 这个 场景 就是 这 画面 上 就是 两个人 站 的 其实 很 近, 对 吧? 他 要 听到 你的 speaker 里面 重现 的 声音, 它 叫做 环境。
周围环境 非常 的 安静。 这个 他他 提到 了 他的 这个, 一会儿 你可以 详细 解释一下。 他 那个 要不 也可以 以 bubble 的 模式, 就是 只要你 能 听到 也可以 落 的。 所以 这个 也许 他 能 技术 上能 解决。
对, 再 补充 一下, 从小 白 用户 的 角度 来说, 这个 是我 最 喜欢 的 功能。 我 跟 大家 解释一下, 刚刚 这个 是一个 同声 传译 的 场景。
为什么 你喜欢 同声 传译? 你喜欢 的 是 他在 你 耳朵 他 一边 说 你 一边 听。
还是 我喜欢你 在 说 西班牙语, 我 能 用 中文 跟 你 交流, 或者 你 在 说 意大利语, 我们 两个 可以 实时 的 语音 交流, 你 不 觉得 这个 很棒 吗?
就是 他他 让 人类 突出。
了 语言 的 障碍。 ChatGPT 我 觉得 没有 那么 方便 是吗? 为什么呢? 你 你 ChatGPT 你 得 打开 APP, 对不对? 然后 打开 了 APP, 大家 都 还 得对 着 他 来 说话。 然后 我看 一下 你 对 着 他 来 说话。
我 来看 一下 ChatGPT 可以, 你可以 开 语音。
模式 也可以。
我 觉得 这个 是 哪怕。
操作 上能 省 一步, 我 都 觉得很有 价值。 一个 OK.
我 觉得 这个 又说 回来, 他们的 比 他们 更能 帮你。 对, 就是 微笑 他们 做 的 那个 东西 可以 更容易 的 实现 这个 功能。 唯一 的 就是 OK, 你 可能 不想 把 手机 一直 打开 来做 这个 交互, 但是 说实话 我 觉得 这 恰恰 是 它的 好处。 同声 传译 这个 事情 你 需要 的 时候 你 会 把 它 拿出来 用 的, 而 你 不需要 的 时候 才是 更 重要 的 时候。
明白 对 吧? 对, 就是 有 道理。 对我 只是 觉得 如果 单独 有一个 同声 传译 的 硬件 我 都会 买。
对, 这个 翻译笔 什么的 好像 已经 有 一段时间 了, 是不是?
有有 现在 有 一些 可能。
但是 就是 做 的 效果 怎么样? 我 觉得 近期 用 大 模型 来 把 翻译 这些 东西 做 的 明显 上了 一个 层次, 这是 另外 的 一个 问题。
对, 大 模型 现在 的 翻译 会 比 google translate 要好 很多。 对, 但是 就说 是。
phone factor 的 角度 来说, 就是 GLE translate 仍然 是 更好 的 一个 模式。
我 觉得 大 模型 它的 好处 是 它 有 很长 的 context。 对, 就是 它 其实 知道 你的 语, 你 比如说 是 两个人 在 对话, 他 刚才 这个 场景 的话, 他 有 刚才 说 怎么 翻译 这个 事情 吗? 我 好 没有 看到 他 怎么 吹 个 翻译 的 这个 功能 的。
对它 这里 很多 功能 就是 感觉 不知道 怎么。
就 开始 对我 我 再说 一下, 这 是一个 design company。
对, 所以 我 当时 就 突然 怎么 有人说 西班牙语, 他 怎么 就 知道 我要。
给他 翻译成 英文。 你 想想 你 在 一个 非常 快 的 地铁站 里边, 有 边上 有 无数 人 在 说 各种各样 的 语言。
然后 你 前面 那个人 正好 在 用 西班牙 那句话, 然后 你的 这个 拼 就 把 它 用 英语翻译 出来。
所以 我 就 觉得 太 神奇 了, 对 吧? 所以 它 就有 太多 的 场景 限定。
你 才有可能 的 使用。 这就是我 觉得 这个 主动 trigger 出来 的 功能 要 比 这 样子 可能 要 理想。
对, salt bible 你 要 解释一下 吗?
这个 详细 原理, 因为我 不知道 他 怎么 设计 的, 我 只能 去 猜测 他 有什么 办法 去 实现 这个 功能, 对 吧?
你 先 给 大家 解释一下 什么 叫做 sound bubble.
学术 上 没有 这个 词。 但是 它的 这个 动画 感觉 展示 的 是 好像 它 有 一些 模式 下 可以 只有你 自己 能 听到, 有些 模式 下 可能 别人 也能 听到。 但 具体 它 怎么 实现 呢? 我们 现在没有 这个 设备, 也 不知道。 但是 比如说 它 最简单 的 实现 方法 就是 声音 比较 小的 时候 只有你 自己 听到, 声音 比较 大 的 时候 别人 就能 听到, 对 吧? 会有 一些 稍微 好 一点 的 方法, 比如说 它 如果 有 多个 麦克风, 它 可能 能 加 一些 相位。
就是 数学 都 学 过, 当你 有 两个 声音 源 的 时候, 有些 地方 声波 会 加强 的 地方 声波 会 减弱。 那 当 你的 这 两个 声音 员, 如果 比如说 一个 上 一个 下 的 时候, 我 就可以 用 一种 方式 去 播放 的 时候, 让 你 正上方 的 人 听到 的 是 声音 加强 的。 但是 空间 中 别的 位置 有的 地方 声音 加强, 有的 地方 声音 减弱。 但 这个 也 不太好, 就是 他 不可能 做到 一个 完全 别人 听不到。 还有 一种 办法 就是 他 可以在 上面 放 一些 超声波 的 发射器。
刚才 我们 说 的 所有 方法 都 只能 做到 让 我 听 的 声音 更大 一点。 来 我们 再 重新 总结 一下 方法 一是 有一个 扬声器, 然后 你 有 不同 的 大小 去 播, 我 只要 把 它 剥得 足够 小, 别人 都 听不到。 当然 就是 别人 如果 离 我 足够 近, 跟 我 听到 的 是 一样 声儿 大 的。 如果你 有一个 带 相位 的 扬声器 的话, 带 上面 的 扬声器 阵列 的话, 你可以 做到 我 以 同样 的 距离 比 别人 以 同样 的 距离 听到 的 更 清楚, 这样 就 已经 好 很多 了。 更好 的 办法 就是 要 加 超声波, 但 这样的话 你 这个 设备 的 成本 就 上去 了。
对 吧? 而且 什么 叫 超声波? 就是 你可以 有 一些。
超声波 的 声 器, 你可以 让 他 播放 一个人 听不见 的 声音。 但是 这个 声音 用人 可以 听见 的 声音 去 调制 它。 当你 正好 在 某个 频率 的 时候, 它 可以 导致 这个 有 两种 实现 方式。 我 如果 没 记错 的话, 一种 实验 方式 它 可以 用 一种 特殊 的 频率 的 声波, 它 和 空气 和 一个 固体 界面 的 这个 位置 特别 容易 形成 共振, 他 就可以 做到 我的 扬声器, 比如说 在 我 这儿, 但是 我可以 让 别人 都 认为 扬声器, 比如说 在 墙上, 它 可以 做到 这样 一个 效果。 所以 它 有可能 可以 打 到 你的 脸上, 或者 打 到 什么 地方。 然后 这样 是你 你是不是。
做 过 这样的 实验。
我 个人 没有 做 过, 但 这 是一个 我。
那个 轰炮 的。
其实 就是这样 的 原理, 没有 轰炮 的 它是 为什么? 几乎 你 看不到 这样的 设备。 其实 所有的 基于 超声波 的 扬声器 基本上 音质 都 不太好。
他 那个 比 骨传导。
还 因为他 不太 能够 放出 低频 的 声音。
我所 他 需要 用 超声波 来 和 某 一个 别的 介质 接触, 而 这个 介质 在 这样的 环境 还是 它 不能 控制 的。 如果 它 能 控制 的 一个 介质 的话, 还 相对 能 好 一点。
超声波 的 物理 原材料 或者 材料 是什么?
它的 材料 它 就是 扬声器, 就是 B 长 得 有点像 你的 这个 麦克风, 这种 就是 一个 圆柱形 的 一个 小 装置。 然后 一般 情况下 你 会 买 很多 个, 比如说 买 十个。 因为你 需要 它的 定向 性 超声波, 你 就可以 通过 你 调制 你的 一系列 超声波 扬声器 的 相位 来往 某某 个 方向 打。 就 一个 比较 常见 的 一个 比较 成熟 的 展示 是 比如说 你 如果 有一个 方形 的 超声波 阵列, 你可以 往 比如 墙上 的 你 指定 的 一个 位置 去 打。 然后 你 就会 让 别人 都 感觉 扬声器 实际 在 墙上, 但 实际上 你 扬声器 在 你 手里。 这样的话 如果你 打 到 你 脸上 某个 位置, 离 你的 耳朵 很 近, 就可以 做到 一个 你 自己 声音 很大, 但 别人 完全 听不到 这样 一个 状态。
我 来 加 两句, 就 这个 事情。 第一 我 觉得 刚才 说 的 相位 这个 技术, 他说 的这 套 东西 99% 的 可能 就是 这个 是 吧? 相位 的话 就 形成 一个 足够 大 的 波节。 在 这个 地方 的 震动 被 加强 了, 在 这个 位置 被 加强, 然后 你 能 听到 剩下 远 的 地方 的话, 它 本身 就是 2次方 反比 衰减 就 足够 了。 超声波 这套 技术 我 觉得 还 不如说 反正 有 定向 性 对 吧? 你 就 用 非常 讨厌 的 超声波 把 大家, 把 周围 人都 赶走。 这 超声波 就 更 像 间谍 技术 了。 因为 当年 实际上 有 类似的 间谍 技术, 是用 类似的 方法 来 把 声音 传出去 的。
应该 我 还 看到 过 有的人 做 的 这个 demo 应该 是 太 超声波 的 trick 就在于 你 找到 那个 合适 的 载波 频率。 你 那个 载波 频率 合适 的 时候, 比如说 它 就可以 做到 打 到 墙上, 然后 空气 就会 在 打 到 那个 位置 震动。 我 好像 也 见过 可以 做到, 它 不是 打 到 一个戒指 上, 戒指 发生 是 打 到 你的 脸上, 或者 你的 耳膜 就会 震动 发声 之类 的。
就是 感觉 还 可以 搞鬼。
故事 是 这 样子 的, 真的 给 你说 说 一个 这种 类似的 原理 更 可以 理解 一个 例子。 咱们 现在 在 这个 房间 里边, 你 看到 这块 儿 有 个 幕布, 这个 幕布 理论上 说 在 这个 房间 之外 很远 的 一个人 用 望远镜 看 这个 幕布, 通过 分析 这个 幕布 上 的 震动, 是 可以 听到 我们 所有 说 的 所有 话 的。 这个 技术 现在 是真的 可以 存在, 并且 在 一些 场景 里边 是 非常 实用 的。
实际上 这类 技术 是 有 像 窃听。
对。
你们 在 开会, 我 别 寄出去 了。 对, 你们 到时候 听 玻璃。
对, 听 玻璃, 玻璃。
这 都行。 任何 的 东西 就是 只要你 要有 这个 震动, 我可以 分析 从 远远 距离 分析 这个 震动 这个 东西 就可以 实现。 但是 这个 震动 的 频率 和 你 说话的 频率 已经 不一样。 但是 这个 东西 反推 是 可以 推出 来 的, 但是 音质 会 极差, 能 听 清话 就 够了, 能 用来 做 这种 事情。 播放 音乐 别 想 对 吧? 播放 音乐 我 觉得 他。
他 前面 的 一个 播放 音乐 的 例子, 我 都 觉得 不是 特别 有 道理。 就算 是 iphone, 有 几个人 拿 iphone 来 功放。
对, 你 这 你 就 不 理解 目标 诱惑 了 吗? 大喇叭。
对对对。
我 稍微 再 发散 一点点, 就是我 前 一段时间 试 了 meta 发布 的 那个 ribbon 的 眼镜, 那是 骨传导 的。 对对对, 那个 是 骨传导 的。 对他 那个 眼镜 反正 我 当时 是 感觉 我 戴 着 它 听 音乐 跟 听 播客, 它的 音质 还 蛮 好的。 比如说 我 合伙人 他 就 站在 我的 旁边, 或者 站在 我的 正 前面, 他 几乎 是 听不到, 或者 那个 声音 是 很小, 不会 对它 形成 干扰 的。 但是 在 我 耳边 足够 大, 所以 它的 原理 是 震动。
骨传导 他用。
你的 头骨 来。
解释 不好 的。
也 可能 对于 普通用户 来讲 还行。
但是 你 看到 音质 不好。
音质 我 之前 用过 的, 他 会 可能 我 个人 对 那个 高频 也 比较 敏感, 就是 他 会 震 得 我 难受 是 对他 会。
对我 我 听 的 时间 不是 很长, 因为 当时 就是 在 我们 这个 办公室 安静 的 环境, 然后 没有 其他 的 杂音。 对, 这也是 另外 就是 demo 了 一小 会儿 五分钟, 对。
比较 嘈杂 的 环境 你 也就。
听 了 听 音频 的 一切 事情 都 是在 把 音频 源 尽量 的 离 你的 耳朵 拉近。 你的 音频 源 离 你的 耳朵 越 近, 你的 效果 就 越好。 它是 个 2次方 反比 的 衰减。 所以 刚才 说 的 一切 技术 都 是在 想办法 拉近 这个 音频 源 离 你的距离, 拉 远 音频 源 离别 人的 距离。 像 骨传导 就 很 好了, 就是 他 已经 很 近。 比如说 你 拿 个 耳机 就 更 没问题 了, 对 吧? 都 塞住 了。 别人 离 这个 音频 源 十万八千里, 你 正好 就在 你 耳膜 距离 2厘米 的 位置 在 播, 所以 别人 就 很难 听得见, 然后 骨传导 也是 他 离 得很 近。 眼镜 这个 其实我 个人 甚至 反而 觉得, 如果你 问我 A I 的 hardware 应该 长 什么 样子? 我 觉得 现在 已有 的 状态 下, 可能 最合适 的 就是 眼镜。
眼镜 然后 在 背后 背 一个 2公斤 的 电池。 我 就 我 觉得 不需要 显示。
要 我 随便 乱设 几个, 我 可能 就 设计 一个 眼镜, 然后 你 需要 显示, 你 只有 手机 显示, OK.
就 眼镜 连 手机。 那 你的 意思 是, 那那 你的 操作系统 呢 啊。
那 你的。
操作系统 就是 就 他说 你 要有 接入, 具体 怎么 接入 就 不知道 了。
All in .
meta 他 没有 手机操作系统, 对 吧?
所以 他 那个 连着 手机 的。
对对对, 这是 meta 在 手机操作系统。
但 他他 没有 手机, 他 没有 安卓 也没有。
回到 刚才 的 问题, APP 就 够了。 在 这个 问题 上 APP 就 够了, 你 只要 敢 相信 他, 对 吧? 尤其是 你 想 在 meta 的 世界 里边, 你们 所有的 消息 都 应该 从 faceless message 来 发 这个 事情。 而且 说实话, 这一点 上 对于 很多 美国人 来说 不是 那么 偏离。 因为 他们 不会 用 微信 的话, message 可能 也没有 是 和 那 什么, 就 基本上 facebook sge 不出 前 三 的。
不出 前 五 的 是什么?
Messenger whats up? 对, snapp chat .
snapshot t 不属于 他们, 还有 telegram。
对, telegram 就是说 是 他 不出 前 五 的, 就是说 他 想做 这个 事情 也是 能 做 的对, 有 足够 的 数据 来做 这件 事情。
所以 我是 再 发散 一下, 你们 觉得 现在 的 智能 硬件, 就 比如说 它 这个 叫 A I pin, 它是 一个 夹 在 衣服 上 的, 其实 没有 必要 做 那么 的 fancy。 即使 我们 说 以 A I 的 思维 去 设计 智能 硬件, 它 依然 可以 是 很 简单 的 跟 手机 相连 的。
或者 如果 他 做 这个 pin 而且 他 不是 苹果, 我 觉得 对于 他 来讲, 他 如果 决定 好了 做 pin 这个 form factor, 我 对他 别的 设计 没有 太多 的 想法。 比如说 举 个 例子, 其实 我也想 过 这个 问题, 你 做 一个 A I 设备 你 得 联网, 对 吧? 你 怎么 联网? 这就是 一个 巨大 的 问题。 你 能 用 手机 的 网 吗? 很难, 尤其是 android 的 可能 可以。 Iphone 你 想 用 手机 的 网 好像 几乎 没有 什么 好 办法。 所以 他们的 设备。
然后 手机 上 做 个 东西 转发。
但是 你 手机 的 APP 没办法 保证 它 永远 在 跑。 Iphone 动不动 就 把 你的 后台 删了, 你 要求 他 一直 在场 前台。 对 那就 对, 这 会有 一些 convention。 所以 我 觉得 他 之所以 这么 做, 他的 每一步 都是 有 他的 原因 的。 但是 至于 他 能不能 成功, 我 觉得 还是 有待 考量。
所以 我 觉得 A I 时代 的 这些个 硬件 应该 是 跟 手机 来进行 协同。 就是 它 应该 补齐 手机 并不 具有 的 功能。 就 比如说 你 手机 确实 不可能 长时间 的, 比如说 收音, 或者 你 也 不可能 长时间 的 看着 视频。 就 这些 场景 的话, 其实 是你的 智能 硬件 可以 给你 带来 的, 尤其是 穿戴式 的 智能 硬件。 我 觉得 自从 苹果 发布 它的 apple watch, 就是 大家 开始 越来越 习惯 开始 戴 它 之后, 大家 对于 这个 穿戴式 的 硬件 有一个 新的 认知。 再加上 现在 这 一波 A I 它 本身 在 对于 这个 硬件 自己的 算 力 要求 其实 就 不高 了。 其实 apple watch 它的 算 力 其实 还是 蛮高 的对 吧? 你 要 能 跑 这个 东西, 所以 我 觉得 就 应该 是你的 原生 的 硬件 和 手机 应该 能 协同 起来, 然后 能够 用上 手机 上面 最 强大 的 能力。
你说 到 这一点 了, 他 也许 对 原生 的 硬件 的 算 力 要求 不是 那么 高, 对 通信 的 要求 反而 变 高了。 而 这一点 恰恰 是 美国 实际上 做得 非常 不好 的 一点。 就是 他 现在 他 给 的 市场, 你 很多 地方 是 没有 网 的这 一点 一直 都是 存在 的 一个 事情。
对 吧? 有 网 的 前提 是你 需要 它 非常 的 实时。 我 觉得 并不是 所有 场景 它 都 需要 特别的 实时。
但是 它它 这个。
场景 都 比较 实时。
对, 你 这 这 它 里边 你 问 的话, 他 这个 话 必须 发到。
就 我 比如说 播 音乐 这个 场景 对 吧? 他 可 完全 可以 从 你的 手机 里边。
就是我 估计 尤其 他 这个 设备, 他 没有 网, 你 跟 他 说话 他 都 不理 你。
对对对, 以后 每天 走 的 路上 背后 背 个 项链。
这 说不定 星 链 是个 非常 好的 solution.
对不对? 这个 设备。
就会 变成 这么 大对, 我不是 磁吸 背夹 夹 在 背上。
对, 顶上 有 太阳能板。
来做。
赛博 火星 去旅行。 对。
赛博 串 在 上面 配 这个 东西 了 已经。 The A I can recognize objects, and we're starting with health and nutrition.
好, 继续 视频。 接下来 的 演示 是 他 拍 了 一组 杏仁 的 照片, 是 他 今天 吃的 杏仁 的 量。
These armies have fifteen grams of protein.
great.
他 就 问 这个 A I 说 他 有 多少 蛋白质, AI 会 帮 他 记录 每天 的 营养 摄入。 同时 他 也有 看到 一本书, 他 就 也是 用 A I 摄像头 去 拍 了 一下 这 本书。 问 他 网上 卖 多少钱, AI 说 28块钱。 他 可能 是 发现 这 本书 在 网上 卖 的 比 线下 要 便宜, 所以 他 就 说好的 买 它。
他 怎么 卖 的, 我 觉得 很 神奇, 他 得 支持 点 可以 买的。 对他 肯定 没。
告诉你。
阿嬷 子 是 他 是从 阿嬷 子 买的, 还是 从 什么 地方 买的, 对不对? 这里 边 问题 很多, 我 觉得 这个 会 很多 展示 后, 但是 我 觉得 看 这 一段 的话, 我 觉得 它 突出 的 一个点 终于 可以 回答我 的 那个 问题, 为什么 手机 不行? 在 这点 上 我 觉得 它 确实 有 它的 优势, 就是 穿戴式 提供 的, 真的 是 举手 就可以 用。 对, 这一点 上, 但是 穿戴式 没错, 是否 以 这样的 FM fun fact 我 还是 不信。
我 还 觉得 就是我 觉得 如果 需要 摄像头, 我 觉得 最好的 form packer 是 眼镜 O K, 而且 确实 而且 视 视 的, 而且 你 能 看到 东西, 你 眼镜 是 都能 看到 的。 而且 还有一个 有意思 是 你 不用担心 平胸。
对, 其实 对我 也是 说 你看 他 得 把 这个 放在 胸前, 让 他 来看。 这个 事实 已经 很 奇怪。
你 不 觉得 吗? 而且 还有 就是 回到 privacy 的 问题, 你 想想 得 有 多么 的 尴尬。 比如说 我们 来 吃 个 饭 对 吧? 然后 吃饭 的 时候 菜 上了, 然后 我 跟 他说 我 能 吃 这个 吗?
这 最 这 我在 吃 了 一, 最 关键 的 是 他在 吃 了 一下, 他 有 考虑 这。 说 他 能 看到 里面 什么东西 吗?
所以 我 觉得 他的 想法 是 好的。 他 其实 在 思考 我 怎么 把 vision 就是 看到 的 这个 东西 和 我的 A I 结合起来。
但是 你 不 觉得 他在 demo 影片 里边 抛出 的 这个杀手 级 应用, 是一个 我 觉得 鸡肋 的, 不能 在 积累, 并且 可能 90% 的 时间 都不 work。 这个 东西 就是你 必须 把 每 一道 菜 原料 在 他 面前 摆 一下, 他 才能 知道 这是什么。
我 能 感觉到 他 想 在 做 一个 apple watch 一样的 感觉, 对 吧? Apple watch 在 发布 的 时候, 他 有一个 可以 track 你的 finance tracking。 这个 怎么 翻译? 就是 可以 做 运动 追踪 的 这样 一个 功能 对 吧? 它 也是 三个 圈, 你看 他 那 也是 三个 功能。 但是 apple watch 的 最好的 电影 是你 什么 都 不用 做, 他 就 帮你 check 了 他 这个 食物 追踪。 如果 还需要 我说 我 吃 了 他 这 真的。
他他 比 你 他 比 你 拿 手机 出来 拍 张 照发, 他 帮你 分析 好 那么 一点。 今天 四十 好 那么 一点, 对对对 吧?
我 好, 我们 继续。
It's magnetic, just like all of our accessory.
And I 接下来 就是 在 展示 A I pin 的 各种 配件。 比如说 它 有 各种各样 漂亮 的 可以 别 在 胸前, 还有 一些 好玩的 充电板, 还有一个 给 A I 充电 的 小盒子, 有一点 类似 于 大家 给 苹果 耳机 充电 的 套 壳。
我 觉得 它 现在 在 展示 着 那个 非常 的 苹果。
就是我 也是 这种 想法。
看到 中间 那个 透明 的 那个 的 时候, 第一盘 就是 苹果 表, 有 个 爱马仕 的 表带。
对, 这个 东西 要 卖 99至少 对 吧? 对, 这个 最少 99块钱。
对, 就是 美颜。
而且 这些 东西 非常 没有用。 其实 对于 它的 这个 价值 就是 只是 说 我 有 这么 多 配套 的 access, 你 有 特别的 多 的 选择, 我 就 给你 去 选择。
然后 会 明白 这 我 现在 实际 对 这个 东西 有一个 想法, 我们 一会儿 再说。 我想 把 这部分 看完, 但 我 觉得 就是 一定程度 有 合理性 了。 现在 但是 另一个 角度 来说, 就是 他 这个 东西 真的 就是你 就 想 收钱 对 吧?
对, 所以 你是 今天 真的 是 第一次 看 这个 视频。
看 这个 第一次 看 这个 视频, 我看 的 是 另外一个 我 网站 的 一些 东西 看, 但是 我没有 看 这个 视。
我 觉得 它 特别的 不符合 一个 可 穿戴 设备 要 有的 功能。 就是 可 穿戴 设备 你 应该 希望 你 每天 不会 注意到 它。 那 他 你每 换 一个 衣服, 你 就得 重新 佩戴 一遍, 对 吧? 就是你 想 谁 会 带 一个 pin 他 带 个 pin 的 人士, 他 觉得 这 是一个 fashion 对 吧? 这 是一个 我想 表现 我自己 的 方式, 然后 我 可能 会 带 这个, 所以 我 觉得 它 并不是 一个 可 穿戴 的。
感觉 是 这 样子, 我 现在 对 这个 东西 理解 是 他们的 设计 的 出发点 是 这 样子 的。 他们说 我们 想做 一个 google glass, 因为 实际上 咱们 现在 想象 GLE glass 确实 是 可能 是 这种 交互 来说 最 适合 的 一种 方式。 他们 想做 一个 类似 于 google ass 这样的 东西, 来 提供 A I 时代 的 交互。 但是 他们说 OK, 第 1 google ass 是 google glass, 我们是 苹果 员工, 我们 看不上。 第 2 googlers 本身 他 已经 跟 销售 各方 方面 有 一些 不好 的 联系 了。 包括 他 对 戴眼镜 的 人 有 不 友好, 对 不 戴眼镜 的 人 也有 类似 不 友好。 就是说 他们 想 设计 一个 类似 于 郭 功能, 但是 另外 的 一个 phone factor 的 一个 形式 的 可 穿戴 设备。 这 回答 了 我 最 开始 的 那个 为什么 不能用 手机, 就是 他们 确实 是 想做 一个 类似 于 谷歌 glass 这 样子 的 一个 A I 护 设备。
从 这样 出发, 他们 找 呀 找 找 他的 身上 的 各种 地方 找, 最终 找到 觉得 放在 胸前 的 这样 一个 片, 既 可以 满足 看到 和 人眼 的 视角 差异 不会 特别 大, 同时 说话 也能 听 得到, 并且 相对 不 那么 显眼。 戴 在 任何 脸上 的 东西 都会 特别 显眼, 相对 不 那么 显眼, 同时 又 能够 提供 你想要的 功能, 最终 落落 在 这个 位置。 从 这个 地方 接着 出发, 他 就说 OK, 既然 我们 有一个 pm 那 我们 怎么 把 它 吸上去, 怎么 把 它 连上去, 夹子 还是 磁吸? 现在 他 做 的 这种 保护套 都 从 这儿 衍生 而来 的, 包括 他的 交互方式 也都 是从 这儿 来 的。 所以说 我 现在 能能 理解 他 到底 想 干嘛 了, 但是 是否是 应该 有的 形式 我 很 怀疑。
好, 还有 最后的 一分钟, 我们 把 它 看完。
Data with a dedicated self phone number for your aen via the humane network for just twenty four dollars a month.
在 这个 视频 的 最后, 说 了 一下 它的 价格 和 合作方。 基础 版 的 价格 是 699 美元 一个月, 每个 月 还有 24美元 的 订阅。 然后 这个 订阅费 它 其实 是 包含 手机信号 的。
Tomorrow 我 觉得 它 这里 的 每一个 demo 都 挺好的, 基本上 展示 了 A I 可能 能 在生活中 发挥 什么样 的 作用, 这个 我 还 挺 喜欢 的。
就像 我 刚才 开头 说 的, 它的 整个 的 设计 我 还是 给他 挺 高分 的。 Apple 的 这些 员工 在 整个 的 设计 的 颜色, 它的 color, 然后 他的 感觉 都能 达到 苹果 的 标准。
对, sam altman 投资 了 humane。 我不知道 基于 他们 跟 OpenAI 的 这些 关系, 他们是 可以 拿到 什么 开发者 拿到 不到 的 权限 吗? 还是 都是 一样的。
我不知道 他 能不能 拿到 别的, 但是 至少 到 目前为止, 他 展示 的 所有 功能, 我没有 看到 任何 一个 用 open 的 A P I 做不到 的。
对我 怀疑 他 会不会 比 别人 早知道 open I 要 不过 OpenAI 一直 都说 自己 要 发 vision 的 模型, 所以 也没有 这个, 他 也 可能 能比 别人 早点 拿到 vision 的 A P I。
说实话 他 这里 边 的 用到 的 vision 的 部分 不见得 要 用 更 多一些, 我 觉得 不需要 这里 边 不需要 是 吧? 说实话 要不是 因为 s stem 奥特曼 投 了 它, 可能 这个 东西 不会 进入 大家 的 这么 高 曝光度 的 视野。
其实 刚刚 我们在 分析 它的 各个 功能 的 时候, 我 注意到 每一个 细节 大家 都在 吐槽。 但是 我们 真的 视频 看 完了, 大家 又 觉得 还是 有 很多 可取之处 的。 所以 我 很 想知道 大家 的 综合 观点 是什么? 就是我 觉得 这个 视频 火, 它 包括 在 美国 跟 中国 的 很多 的 社交 媒体 上 的 转发 跟 传播 量 都是 非常 火 的。 首先 我们 知道 还有 很多 功能, 可能 基于 我们 今天 的 讨论, 它 不是 特别 容易 实现 的。 但是 另外 它 是不是 也 展示 了 一种 大家 对 未来 取代 手机 的 这种 智能 硬件 的 一种 向往。
我 认为 它 所有 功能 都 特别 容易 实现, 我不 觉得 它 不容易 实现。 我 觉得 它的 问题 只是 它 可能 不是 最佳 的 那个 form factor。 我 还是 不知道 form factor 怎么用 最好的 翻译。 它 这里 的 每个 demo 都 非常 有 道理, 它的 功能 都 可以 实现。 因为 其实 这 都是 一些 A I 的 比较 基础 的 功能, 它的 一些 接入 也很 有 道理。 就是我 觉得 它的 硬件 的 实现, 我 可 个人 觉得 不 太太 有 道理。
你 就说 它 硬件 的 形式 就是 一个 A I pin 的 形式 放在 胸前, 而 不是 一个 智能眼镜 儿。
对, 不一定 说是非 要是 能 显示, 但是 或者说 是 直接 在 手机 上 实现 类似的 功能。 就是我 觉得 我 刚才 这个 基本 总结, 我 刚才 说 的话, 我 刚才 实际 总结 过了。
就是说 他 为什么 在 胸前。
基于 大家 对 谷歌 的 一个 回应 的那 一种 对 想做 一个 A I 的 可 穿戴 设备 入手, 最终 是 一步一步 找到了 这样的 一个 位置。 从 这个 角度 来说, 可以 理解 是否 找到了 好的 位置, 甚至 是否 应该 找 这个 位置。 我 仍然 是我 最 开始 的 态度。 就是现在 这个 时代 做 一个 基于 手机 的, 然后 基于 手机 把 这个 东西 做好 之后, 在 它 基础上 进行 一定程度 的 硬件 扩展。 可能 是 相当长 一段时间 让 A I 能够 真正 造福 大家 的 一个 路径, 更好 的 一个 路径。
我 觉得 可能 对他 稍微 有点 不公平 的 点, 就是 我们 毕竟 都 是在 弯曲 生活, 对 吧? 其实 它的 很多 功能 我们在 其他 场合 是 见过 的那 我们 也 知道 这个 东西 如果 自己 去 专门 的 实现 的话 不难。 但 我相信 它 能够 这么 大 的 传播, 是因为 就像 苹果 一样, 苹果 它 不一定 是 做 最新 的 东西, 但 它 可以 把 很多 的 东西 融合 到 一起, 变成 一个 真正 的 硬件 的 产品 卖出去。
就像 苹果 表 当年 刚 出来 的 一样, 它 不是 第一个 做 的。 当时 比如说 samsung 或 google 都 已经 做 过了。 但是 他 会 把 他的 这样的 一个 想法 融入 到 那个 硬件 里边。 所以 我 觉得 后面 其实 是在 努力 在 做 这个 事情。 我们 可以 说 不 同意 他的 这些 想法, 但 他的 努力 我是 看到 的。 所以 我 其实 当时 第一时间 就在 X 上面 就 发布 了。 我 其实 还是 非常感谢 他们 能够 又 开始 尝试 更多 新的 硬件。
已经 太久 没有 这些 小的 公司 敢 去去 挑战 一个 说 我要 做出 一个 特别 好的 硬件, 改变 大家 对于 硬件 的 思考 了。 你 想想看 你 上 一个 真正 使用 的 比较 好的 硬件 是什么? 就是你 都想 不太 起来 对 吧? 你 苹果 标 已经 很久 了 对 吧? Steam deck 对, 那个 对。
就是 他 那个 是什么?
Steam deck.
就是。
一个游戏 游戏机。
O K 但是 他他 这个 其实 真正 想 说好, 我 现在 终于 有了 这么 多 技术 了, 我需要 找到 一个 好的 包装, 把 它 能 融入 到 每天 的 生活 里面, 不再 是一个 简单 的 玩, 也 不再 是 简单 的 看看 时间 什么的。 那 我 这个 A I 到底 应该 是 什么样 的 状态? 他 其实 确实 在 努力 思考, 我 觉得 我们 可以 不 同意 他的 这个 实现 方式。 但是 我 还是 非常 的 感谢 他 去 尝试 这个 事。
我 非常 同意 这一点, 就是 我们 不 同意 他的 实现 方式, 但是 找 一个 新的 A I 时代。 的 设备, 我 觉得 大家 都是 非常 支持 他 去做 这件 事。
没错。 对我 觉得 他 其实 给 大家 带来 了 很 好的 一个 赞, 精神可嘉。 对 大家 其实 就是说 那你 感觉 这个 work 了, 那个 不 work, 对 吧? 也就是说 他 花了 很大 的 一笔 钱帮 大家 去 验证。
路上 探 一条路, 不管 能 成 不能, 成都 是 探 了 一条路。
所以 我 觉得 他 毕竟 他们 融资 了, 融 了 那么 多 钱。 当 他 意识到 这么 多 反馈 给 他的 时候, 我相信 他的 下一代 产品 会有 一个 非常 大 的 提升。 对的, 我相信 他 有可能 就 提升 到 就说 我 确实 大家 这个 手掌 感觉不好, 对 吧? 那 我们 有 更好 的 方案。
有 道理。
其实 已经 有 第一代 的 积累 了。 看 第二代, 对对对, 所以 苹果 的 表 第一代 那时候 也是 非常 难 用 的。 如果 你们 用过 的 时候, 它 用 一会儿 它 就 没 电 了, 对 吧? 而且 它 本身 不能 独立 使用, 它 有 很多很多 的 问题。 但是 随着 第二代 第三代 出来 的 时候, 就 会有 更好 的 东西 出来。
而且 它 第一代 的 forever fact 就是 对的。 而且 第一代 的 苹果 表 其实 并没有 有 续航 的 问题。 我 从 第一代 就 开始 用, 没有 续航 的 问题, 它 就是 功能 比较 少。
我们俩 是用 的 不一样。 就是我 第一代 的 时候 我 就 觉得 比如说 我要 打开 微信 这个 东西 就让 我 非常 的 痛苦, 他 特别 慢。 对, 就是 他 就有 很多 东西, 他 当年 刚 开始 跟 你说的, 我可以 实现 的 东西, 他 就 一个 都 没有 实现。
对 吧? 我 觉得 他说 的 这个 就是 phone factor, 至少 是 对的。 但是 从 另 个 角度 来说, 这家 公司 如果 手里 钱 足够, 能够 持续 下去 探索 它的 下一代 产品, 可能 真的 就 这些 问题。 可能 就是说 是 改变 phone n fighter 也 不是 多大 的 事儿。 如果 他 有 所有 这些 把 这些 连 起来 的 能力, 有钱 这事 是 可以 做 的对, 探索 确实 是 非常 值得 的。
然后 从 这个 角度 来说, 在 这个 意义 上 的 探索 就是 把 我们 超出 现在 手机 的 无线 刷 无底洞。 为什么 我 刚才 说 的 这个 内容 推荐 什么什么 这个 问题, 他 不去 考虑 这个 问题, 而是 去 说 OK。 我们 不是 要 去 建 一个 把 人的 时间 都 消耗 在 这儿 的 事情, 而是 说 我们 建 一个 东西 能够 帮助 人们 更好地 跟 这个世界 交互。 我 觉得 这个 确实 精神可嘉 的 一件事。
Phone factor 我 查 了 一下, 中文 意思 是 尺寸 规格。 它 指的 是 计算机硬件 设备 的 尺寸、 形状、 布局 等 方面 的 规格。
对, 不光是 它的 大小, 还 包括 你 把 它 放在 哪儿。 对我 觉得 硬件 的对 对 硬件 的 表现形式, 我 觉得 是 可能 在 这个 场景 下 更 合适 的 一个 翻译。 对, 就是 表现形式 对 吧? 硬件 的 表现形式 他 要 做 的 也是 一个 可 穿戴 硬件, 它 以 一个 眼镜 的 形式 表现, 还是 以 一个 手表 形式 表现, 还是 现在 以 一个 片 的 形式 表现, 这是 它的 不同 的 m fact 来 实现 他 A I assistant 的 A I 的 接入 入口 这个 功能。
要不要 实现 一个 孙悟空 的 头箍 的 形式。
干嘛 不 塞 耳朵 里。
金箍棒 头顶 它 这个 跟 你的眼睛 的 视角 差不多 的 是 箍 金箍棒。
然后 每次 要 看我 吃 什么 菜。
我 就 转 一下头。 确实 是 其实 你 如果 从 你的 人生 上面 去 找 到底 放在 哪儿。
对 吧?
替换 掉 你的 鼻子, 对, 这个 就是 往 这个 赛博朋克 的 方式 一体 的对, 你是不是 要 加 一体 对 吧? 你 确实 是 你是不是 要 加 一体? 还是 说 你 像 伊隆 马斯克 说 的, 我 就 脑机 接口, 我的 这个 到底 是 人和 现在 新一代 的 A I 是 怎么 交互, 然后 在 里边 交互, 其实 大家 都 还在 探索。
这么说 的话, 如果 老 接口 他 直接 相当于 他用 你 人的 sensor 来 提供。 当然 这个 就 可能 比较 遥远, 但是 如果 能 实现 了, 这 才是 最好的 形式。
对 吧? 还有 戒指 介质。
比 脑 脑机 接口。 脑机 接口 的话 就说 是 它的 输入 从 这儿 来, 它的 能量 甚至 都 可以 从 你 人 来, 这 可能 是 最有 的。
但 这就是 真的, 这 太 可怕 了。 短期内 还是 对, 其实 还有一个 问题, 就是 上午 我知道你 之前 在 google assistant 做, 然后 我 还 蛮 想 了解。 因为 他们 其实 有 很多 交互 都是 基于 这种 纯 语音 的 交互。 然后 你 刚刚 提到 了, 其实 语音 它是 有 discovery 的 问题。 我 还 想知道 google assistant 他在 做 这种 基于 纯 语音 的 交互 他 遇到 的 问题。 大家 真正 在 交互 上 遇到 的 问题 是什么? 就 比如说 说 为什么 我们 现在 跟 手机 交互 的 方式, 它 不能 是一个 以 语音 为基础 的。 而是 说 我们 还是 以 屏幕 滑动, 手势 操作 加上 打字 为基础 的 这样的 一个 操作。
当然 郭思 森 大概 可能 就 已经 是 六七年 前, 七八年 前 的 技术 了, 对 吧? 我们 可以 说 一下 这个 语音助手 是 为什么 做 起来 的, 为什么 大家 当年 投入 那么 多 钱 去做? 最早 的 时候 是因为 语音 转 文字 这个 技术 得到了 一个 非常 高 的 提升。 大家 就 觉得 说, 我 突然 第一次 能够 听 清楚 人 在 说什么 了。 我 现在 也有 了 语义 理解 N O P L U 的 技术, 把 它 加上 去 之后, 我 就可以 做出 一个 全知全能 的 system 了。 当时 这么 这个 promise.
当时 我 没 这么 想 的。
你的 意思 是对 当时 他们 已经 这么 想 了。 对, 但是 做 着 做 着 就 发现 整个 的 语义 的 理解 是 达不到 这个 需求 的。 现在 可以 了, 就现在 确实 是 这 一块 得到了 长足 的 提。 你可以 思考 一下 当年 和 现在 的 唯一 区别, 就是 老人 model 出现了。
对 吧? 语音 也好 一点, 语音 也 比 语音。
可能 提升。
了 10%、 20% 对 吧? 但是 当年 并 不是说 他 没办法 听。
不 但是 是 可能 是从 90% 提升 到了 95%, 这个 还 挺 有有 感觉, 而且 你可以 多个 语言 来回 换 这样的 就是 我们 比如说。
单 语言 对 吧? 单 语言 我 比 正常 的 查询 跟 他 说话, 其实 你 现在 用 任何 的 这些。
对我 觉得 就是 上次 说 的 点, 就是 这次 提升 的 核心点 就是 L 你知道 什么?
对, 所以 那你 会 思考 说 当时 遇到 的 这些 问题, 就 比如说 它 里面 一个 很 好的 例子, 我 去 一个 restaurant, 我 去 一个 餐厅, 你 直接 告诉我 去 吃 sushi 就 好了。 我要 看 照片, 我要 看 评论, 他 这些 信息 是 没有 办法 传递 给 我的。 人是 一个 非常 视觉 的 动物, 它 不是 光 用 耳朵 听 的对 吧? 那你 视觉 的 这些 信息, 你 没有 办法 光 用 语音 来 提示 给我。 人的 思维 其实 是 非常 发散 的, 但 语音 这个 东西 是 线性 的。 如果你 思考 你 在 用 手机 这些 滑动 屏幕 的 时候, 其实 你是 在 同时 可能 看 好几个。
东西 叫 交互 维度。
对, 因为 你的 语音 输出 也是 直线 的, 它 没有 办法 当 你说 着 说 着 突然 就 跳 到 上面 好几层。 其实 即使 你说 到了 之前 上面 那 一层 的 时候, 语音 它 给你的 这个 action 也是 有限 的。 就 比如说 老 人们 O K 我 OK 你说的 没有 问题, 你可以 达到 95%、 98%、 99。 你 只要 没办法 达到 100%, 你 就和 图形界面 是 有 本质 的 差别 的。 图形界面 能 达到 百分之百 的 准确性, 我 按 了 这个 键, 它 就 一定 能够 出现 发 这 张 model 永远 都 做不到 这个 事情。 所以 无论 怎么做, 你 只要 是 做 语音, 它 就有 一个 accuracy 的 问题。 当你 有 那 5% 的 达不到 你的要求 的 时候, 用户 就 会有 frustration。 对。
是 这 样子 的, 这个 东西 你 从 维度 的 角度 来 解释一下, 就是 人 交互, 咱们 就是 把 人 当做 输入 和 输出。 各种 交互 模式 里边, 输出 的 模式 里边, 实际上 语音 是人 输出 模式 中 效率 最高 的。
基本上 对 吧? 其实 可以 这么说, 就是 文字 输入 模式 肯定 是 低于 语音, 但是 也会 低于 视频 对 吧?
其实 我们 两个 是 不能 输出 视频, 我说 是 输出, 我说 的 输出 就是 输入 的 输出 人的 书 来讲 的, 人的 输入 channel 里边, 人的 输入 模式 里边, 视频 是 信息 密度 最高 的, 就 效率 最高 的。 但是 人的 输出 模式 里边, 信息 输出 是 最高 的, 就是 语音。 人 没有 比 语音 更高 的 输出 模式。 为什么 人 交流? 为什么 大家 需要 开会 面对面 而 不是 打字?
对 这个 对 吧 对我 我 这。
是一个 从就 是从 最 基本 的 维度 和 这个 信息 密度 的 角度 来说 的 一个 分析。 在 这个 基础上 就是说 什么样 的 交互 模式 最 方便、 最 高效, 那 应该 就是 语音输入。 或者说 以 人为 界面 的话, 就是 语音 输出, 图形 输入。
这是 最佳 的 模 语音 加 纸, 这个 是 我们 语音 加 屏幕, 就是你 输入 H C I 里 最 常见 的 一种 多 模态 交互方式, 就是 说话 加 指 对。
你说的 有 道理。
你说的 有 道理, pointing 加 speech。
对, 没错, 就是 在 纸 的话, 纸 提供 的 一个 好处。 虽然 它的 信息 密度 可能 不见得 会 比 语音 更高, 但是 它的 信息 是 二维 的。 这是为什么 我 刚才 提到 那个 V R 里边 你可以 进行 三维 的 输出, 就是 非常 突破性 的 一个 东西。 我是 V R 的 非常 坚定 的 一个 支持者, 虽然 就 这 一波 可能 过去了, 下 一波 可能 还会 来 的。 我 觉得 三维 的 输出 让人 能够 有 三维 输出 能力, 是一个 整个 提升 的 一件 事情。 而 这个 东西 现在 语言 模型 帮 我们 解决 了 一个, 就是 至少 它 能够 让 语音 的 输出 模式 非常 高效 的 和 计算机 进行 交流, 这 已经 是一个 非常 强大 的 提升 了。 所以 assistance 现在 google 能 做 吗?
现在 google 在 做。
这就是说 你 觉得 咱们 刚才 看到 的 这些 东西, google 能不能 做出 一个 更好 的 产品? 我 觉得 从 两个 角度 来说, 技术 上 和 技术 之外, 他们 能不能 做出 一个 类似 但是 更好 的 产品。
我 从来 都不 怀疑 google 的 技术, 但是 google 他 做 产品 就有 天生 的 短板。
往墙上 扔, 贴 得 住, 贴 不住 看。 对。
所以 google 做 产品 确实 它 本身 不 具有 这个 基因。 别提 了。
新 做 硬件 产品 是吗?
不 不光是 硬 不光是 做 软件产品, 也是 他 自己 很难 做 成功 一款 非常 好的 软件。
我 当年 google plus 从 他 第一天 用到 他 最后一天 stadium, 他 从 第一天 用到。
最后一天 就是 google。 Google 其实 确实 是 它 里边 没有 产品 基金。 我 觉得 就是 跟 这个 方 的 文化 有关系, 就是你 成立 的 这些 人, 刚 开始 Larry page 和 sergey 这 两个人。
他 就是 P H D, 他是 一个 是 company, 他 不是 一个 design company。 对。
所以 苹果 它是 我 觉得 在 这 上面 它是 个 design company, 它是 design company。 对, 所以 苹果 他们 当然 内部 也 在 训练 自己的 模型 了。 所有 现在 的 大公司, 我 觉得 对于 这 一波 A I 的 认知 就是 都要 all in A I 就是你 必须 全力 去做 这个 事情。
你 提到 这个, 实际上 苹果 做 这件 事情。
苹果 它的 短板 是 它 不 收集 用户 的 数据。 他 这个 其实 就是 它是 好的 也 不好, 对 吧? 因为你 要 大 语言 模型 最大 的 优势 是 它的 信息 多。 但是 苹果 它 本身 因为 它 自缚 手脚, 对 吧? 因为 它是 通过 这种 手段 获得 了 更 多用户, 所以 他 就 没有 办法 去 拿到 更多 的 高质量 的 用户 数据 来 训练 它的 大元 模型。
倒是 最 开始 应该 比如说 GPT3 这个 level 的, 我 觉得 可能 并不需要 用户 数据, GPT four 甚至 都 不需要, 得 再 下一代 才 需要 用户 数据 去。
而且 现在 实际 已经 有 很多 开源 的 模型, 你可以 基于 这个 来 做对 吧? 这点 我 觉得 倒 不是 太大 的 一个 问题。
苹果 会 用 开源 东西 吗?
当然 不, 苹果 应该 用不了 任何 开源 的, 很多 开源 模型 不 都是 基于 拉曼 的 吗? 拉曼 的 那个 应该 是 可以 把 苹果 用 在外。 对。
所以 大家 觉得 meta 他 现在 至少 有 智能眼镜 V R 这些 产品 了, 他是 个 广告公司。
但是 我 觉得 meta 在 这 一波 确实 是 有 在 发力 的。 它的 这 一波 大 语言 模型 开源 出去 之后, 让 更多 的 人 可以 使用, 让 更 多人 开始 contribute 它的 大 语言 模型 之后, 然后 再加上 他 本身 在 A R 和 V R 上面 是 有 在 发力 的对 吧? 他 就是 我们 也 刚 讨论 这个, 其实 眼镜 这个 是 非常 合适 的, 他 完全 可以 下面 出 一代 更 高级 别的 眼镜, 然后 把 这个 A I 放进去。
咱们 现在 话 都 说到 这 一堆 东西, 你们 觉得 他们 现在 做 这些 东西 会不会 有点 早? 就是说 他们 现在 做 这些 都 基于 所有的 large language model, 都 需要 在云上 运行。 他们 是不是 有点 早? 是不是? 如果我们 现在 往前 再 想 几年, 在 这些 language model 可以在 端 上 运行 的 时候, 这个 phone pack 各方面 会不会 那个 时候 最好的 phone fact 会 是什么 样子?
我 觉得 他们 现在 做 其实 最好, 我 个人感觉 除了 微软, 微软 感觉 也 不太 对 这种 个人用户 的 harper 感兴趣。 像 苹果、 谷歌, 其实我 觉得 他们 可能 反而 有一个 限制, 是 他们 得 自己 做 模型, 他们 自己的 我不知道。 苹果 显然 还没有 一个 很 好用 的 模型, 至少 新闻 上 来看 对 吧? Google 至少 palm 还是 跟 比如说 GPT4有 挺 大 差距 的。
他们 还有 anthropic 至少 是 投资 了 对 吧? 亚马逊 其实 也是 有 机会 的, 因为 亚马逊 它 有 智能 音, 而且 它的 智能 音箱 做 的 最早, 市场 渗透率 也 还 不错。
砍砍 了 很多人 不知道 他们 还 接着 做 不做 了。
这一点 上 又 回到 另外一个 事情, 就是我 其实 也 在 猜 这 事儿, 我 确实 不知道, 但是 我在 猜 就是 为什么。 Google alexa, google system, alexa GLE home 这些 东西 OpenAI 出来 这么 长时间, 他们 自己的 模型 也有 相当长 一段时间 在 设置 中的 集成 已经 做了 这么 长时间 了。 为什么 这个 东西 还没有 上 到 这些 assistant 上?
在 做 内部 都在。
做对 所有。
这些 大 语言 模型, 它 得 根据 你的 场景 做 一些 翻译, 就是 专门 的 针对。 比如说 他 如果 要 做 your system 这个 场景 的话, 谁 有 大量 的 数据, google 是 有 大量 的 数据。 对, 就 所有人 都在 做 这个 事情 了。 其实 大家 都在 思考 下一代 的 智能 硬件 应该 是 怎么样。
我是 有点 怀疑 的, 是不是 这 里面 还 存在 一个 成本 问题?
Inference 成本 还是 相当 高 的对, 所以 你 会 找 一个 就 像你 有的 成本高。
inference.
就说 是 运行 大于 模型 的 成本 相当 高 的。
这个 是个 非常 好的 问题。 谁 来 付 这些 钱? 就 比如说 我 现在 跟 假设 A I pin 来去 交互 的话。
可能 是 24 20块钱。
对 对, 24美元 它 真的 能 去 覆盖 每个 用户 的 一个月 的 成本。
他们 现在 就 比如说 平 折扣 的 什么, 你 想 简单 把。
它 分解 一下, 十刀 给 t mobile 可能 还少。 因为 比如说 我 给 苹果 手表 付 的 钱 就是 十刀, 我 估计 他 可能 也 跟 key mobile 音量 级 应该 有一个 类似的 计划, 对 吧? 可能 还少。 因为他 付 的 钱 肯定 没有 使的, 是我 作为 个人用户, 我要 给他 十刀, 然后 15刀Chat GPT15 刀 对 吧? 而且 实际上 来讲, 一般人 你 再 用 拆 GPT, 你 自己 把 你 那个 数据 拷 到 open I 的 那个 A P I 里, 根本 花 不到 15刀。 所以 他 这个 完全 有 他 挣钱 的 范围。
所以 就是说 现在 我们 调用 大 模型, 其实 成本 没有 那么 高了。
没有 那么 高。 但是 是 每人 每 月20 刀, 十五 刀 这个 价钱 对于 这个 东西 可能 可以, 对于 google home 可能 就 有点 太高了。
对我 觉得 你 得 看 一个 用户 基数, 你 google 或者 是 亚马逊 他们的 这个 用户 基数 太大 了。 你 只要 把 A I 的 功能 给 他们 开始 使用 的话。
这个 成本 也 不是 不行。 就是说 你 每月 加 五块钱, 你可以 使用 更 高级 的, 但是 会 有人 用。
对, 你 就 觉得 google 这样的 公司 吗?
不过 也许 我会 考虑 改变 这个。
我真的 会 考虑 的对 对, 如果 他 这样的 开放 的话, 因为 你说 assistant 立刻 能 变得 比 以前 强大 几十倍, 然后 每月 教师 一刀, 我 觉得 这个 是 完全。 而且 说实话 google 它的 数据 各方面 是 有 这样的, 它 接入 数据 都有 这样的 能力 的。
我 怀疑 从 模型 水平 上, 因为 他们 要 追 GPT4 这个 级别 的 模型, 以及 从 他们 愿意 转变 这个 形式, 他们 愿意 转变 到 用户 每个 月 需要 付 一个, 相对 来讲 还 有点 高, 因为 15到其实 很高 了, 但 大家 已经 很久 了。 对 啊 对 对, 这个 我 觉得 不是 其实 也可以。 我 觉得 从 这 两个 方面 我 有点 觉得 就是 小 公司 可能 最多 有 个 一年半 的 机会。
对, 就是 这个 意思。
这 我 非常 同意, 现在 确实 是 反而 是 应该做 这个 时间 最好的 机会。 因为 大公司 其实 他们 要 准备 好, 实际上 能够 达到 它 内部 的 所有的 这些 流程 做 完 最少 要 一年半。 然后 这个 时候 其实 是 小 公司 开始 收集 用户 数据 的 时候, 对 吧? 因为你 一旦 把 用户 收集 起来, 他 要 换 到 其他 的 平台 是 非常 难 的。
这个 挺 有意思, 你的 一年半 也是 这个 意思 吗?
对, 他们 准备 往 这个 方向 做, 然后 以及 他们 要 完成 很多很多 的, 包括 他们 方向 上 的 转变, 运营模式 上 的 转变, 我 觉得 没有 个 一年 半左右 的 时间 他 应该做 不 完。 但是 我没有 在 大公司 里 工作, 我只是 可以 观察 他们 发 产品 的 进度 这种 感觉。
而 另一个 机会 就是说 大公司 他 肯定 会 做 这个 事情。 他 如果说 他 觉得 自己 比 其他 公司 都 慢 了, 他 就 开始 收购 这些 已经 做 的 还 不错 的 崭露头角 的 公司 了。 所以 这个 时候 就是 小 公司 在 发力 的 机会。
对, 另外 还有一个 操作系统 的 问题, 他是 说 他是 没有 操作系统 的这 是 marketing.
这是 marketing。 对。
就是 你们 觉得 有 个 操作系统。
只不过 它 上面 没有 APP 而已, 我 觉得 所谓 的 没有 APP, 就是我 刚才 说 的, 它 没有 可以 由 第三方 开发者 自定义 的 功能。
我 觉得 这个 更大 的 原因 是 他们 可能 还没有 想 好 这个 A P I 要 怎么 设计。 因为 让 第三方 开发者 进来, 不管 是 建造 这个 生态, 还是 从 功能 上, 还是 从 这个 生态 可以 赚钱 上, 各种 角度 来说 都是 发展 的 必须 有的 一个 过程。 但是 当 他 没有 想 好 这个 A P I 要 怎么 设计 的 时候, 这个 是 没法 开放 的。
所以 现在 也 在学 苹果。
对 不? 甚至 这 是一个 很 自然 的 事情。 就像 咱们 刚 还在 讨论 说是 OK, 你 要 对 这个 信息 进行 索引, 要 用 什么样 的 技术。 这个 东西 我们 既然 在 讨论, 他们 可能 也没有 想 好, 对 吧? 以后 这个 东西 怎么 当然 也 不知道, 他们 第一 方 设计 的话 就是 改 也好 改, 但是 第三方 也 一旦 开放 了 以后 能不能 支持 这些 问题 都 很多很多。 所以说 不 允许 是 很 合理 的。
而且 我 觉得 他 其实 他 想 强调 的 一个 优势 就是 哪 有人说 我 这个 产品 不能 装 APP, 这 是一个 优势 的, 这个 很 怪 对 吧? 它 其实 强调 的 优势 指的 是你 不需要 等待 你的 APP 安装 这个 过程。 我 觉得 这 可能 是 有 一点点 道理 的。 就是 因为 反正 你的 大 模型 必须 在云上 运行, 对 吧? 所以 你 干脆 你的 功能 也 在云上 提供, 那你 就 当然 不需要 安装 这个 功能 过程。 因为 功能 已经 安装 好了。
等于 什么什么 安装 这个 过程 可能 相对来说 小 一点 的 一个 问题, 它 更多 的 是你 脑 中 维护 OK。 我要 做 这件 事, 我要 去 这个 APP, 我要 做 那件事, 我要 去 那个 APP。 这个 概念 没有 对 把 这个 心理 上 的 一个 负担 完全 去 除掉。
这 其实 也是 我 觉得 接下来 的 10年, 无论 下一个 交互 设备 的 表现形式 是什么 样子 的, 我 觉得 可能 都 会有 一个 缓解 的 问题是 现在 的 每一个 程序 和 每个 程序 之间 都 是一个 围墙 花园, 对 吧? 你 没有 办法 互相 交互, 你 没有 办法 用 一句话 干 2个APP 里 的 事儿。 比如说 我说 用 要不 订 一个 餐厅, 并且 把定 的 餐厅 的 时间 放在 我的 日历 上。
对 吧? 转用 安卓。
但是 安卓 也没有, 就是说 它 没有 一个 系统 级别 的 支持。
有的 有有 有有 系统 可以。
支持 这个 就是。
intent 呗。
这些 东西 都是 可以。
但是 第三方 开发者 不能。
这是 android intent, 不过 是 android content。
对, 但是 intent 只有 O S 才能 access, 你 就 播放 一个 APP x 另一个 APP。
可以 可以 可以, 可以 可以, 安卓 可以吗? 对。
安卓 可以。 对, 对, 就是 安卓 intent。 就是 他 把 之前 从 以前 像 我们 做 google sist 里面 的 这些 intel 就 放到 了 系统 级别。
对, 但 都 释放 了 系统 级别。 但是 是 system.
不 都 可以 用, 就 开发者 是 可以 access.
开发者 可以 contribute intent, 它 不能 access.
别的 不可以。 可以 确定 吗? 可以, 我确定 确定。
所以 要 换手机 了。 对, 因为我 觉得 是 苹果 它 本身 是 比较丰富。
对对对, 这是我 我 从 大四 用过 一年 iphone 之后, 我 再也 不用 iphone。 你看 我是一个 非常 坚定 的 开放系统 的 支持者。
因为我 我记得 我 写 过, 但是 我 当时 找 了 一下 不行。 但是 也许。
可能 你 觉得 这 今天 这个 你 买 了 是吗?
给我 买 了, 你 第一时间 就买 了 那个 rewind, 我也 买 了。 Rewind 是什么?
Rewind 就是 个 吊坠, rewind 很 有意思, 他 想 一直 record, 所以 他 一直 record 就有 legal 问题。 所以 他 解决 legal 问题 的 方式, 如果 没 记错 的话, 就是 每一个人 就 你 自己, 你 当然 同意 录 自己 对 吧? 那 比如说 每一个 别的 人, 你 好像 你 都 得用 某种 办法, 就 你 问 他 一下 说 你 愿不愿意 我 录音。 然后 另 一个人 说我愿意 之后, 他 才会 录 这个人 以后 说话的 声音, 而且 是 永久。 好像 是。
我 觉得 好 恐怖。
这个 识别 错了 怎么办?
他 会 负责 吗? 对。
这就是 技术 living on the edge, 对 吧? 你 不去 尝试, 你不知道 这个 方向 是不是 对的。 你 只有 去 尝试 的 时候, 你 就 知道 说 这个 时候 确实 是 有问题。
让渡 隐私 换取 便利。 我 觉得 这个 可能 是 这个 时代 一直都在, 大家 都在, 所有人 都在 做 潜移默化 做 的 事情, 对 吧? 对。
而且 我 觉得 这种 情况 在 A I 时代 它 变得 更加 的 严重 了。
没有 数据 就 更 不可能。
因为他 只要 要 对你 做 个性化 服务, 它 就 需要 更多 的 数据。
All in meta 卖空 苹果 是 这个 意思 吗?
而且 OpenAI 真的 他 那个 ChatGPT 他的 隐私 策略 很 不好, 他说 你 跟 他说 的 每 一句话, 他 都 可以 拿来 训练。 我 觉得 这个 很少 就是 很少 有 别的 产品 是 这样的。 你 想想 你 在 google dog 上 的 数据, google 是 不可能 拿来 训练, 你 发 的 email google 是 不可能 拿来 训练 的。 我不知道 google 设置 query 有可能 可以。
不是 有可能 谷歌 改 了 term google 设置, 现在 里面 的 你 都 可以, 他 可以 用了。
然后 这样的 都 可以 用吧。
没有, 因为我 最近 改 了 他。
而 search 它的 query 一直都在 用, 用来 是 用来 做 的 是吗?
我忘了 他是 他 因为 最近 确实 有一个 反扑, 就是 google 有一天 他 改 了 个 字, 就是说 你 不 同意 的话, 你 就 不能用 google 这个 服务。 然后 就是你 没有 办法, 就 所有人 都会 同意 他。 这 里面 就说 的 特别 清楚, 就是你 在 用 google 服务 的 里面, 所有 产生 的 数 它 都 可以 用。 来说 这个 事情。
是 很 好的 一件 事情。 对, 其实我 在 想 的 事情 就是说, 如果 OpenAI 它的 隐私 政策 是 这个 样子 的, 而且 对 普通人 还好, 对于 公司 级别 他们的 保密 意识 会 更高。 其实 已经 有 很多 公司 强制 他们的 员工 不 允许 去 用 OpenAI 的 产品, 包括 give up.
那边 不是 也有 类似的 情况。
对对对, 我 觉得 这个 问题 现在 只是 还没有 变得 很 严重 而已。 如果说 当 以后 大家 在 用 这个 大 模型 能 找到 它 越来越多 的 弱点, 甚至 能 用 大 模型 去 套 出 一些 大家 的 训练 数据。 其实 已经 有人 这样 做了。
我不知道 你们 有没有 看到 最近 的 一篇 文章, 就是说 怎么 去 把 大 模型 的 训练 数据 套出来。 就是 一直 输 这个 相同 的 字母, 一直 反复 的 问 他 问题。 Google 发表 的 论文 就是 他们 已经 把 大 模型 的 很多 的 训练 数据 都 给 套出来 了。 如果 他用 了, 比如说 我们 平时 给 他的 一些 输入, 甚至 比如说 我们 录 节目 的 一些 东西, 然后 我 都 输入 到大 模型 里面 了。 如果 没有 发表 的 东西, 那 也 被 他 给 套出来 了。 我 觉得 以后 这样 会 造成 非常 多 的 事故, 就是 它是 有 非常 重大 跟 潜在 的 安全问题 的这 是。
整个 A I 大家 为什么 相对 比较 谨慎 或者 什么的 一个 问题。 就是 大家 确实 对 这个 很 担心, 但是 滚滚 浪潮 我 觉得。
很多人 担心 的 问题 都是 A I 毁灭世界。 其实 真的 关心 A I 的 隐私 问题 的 人 很少。
当然 我 觉得 所有的 公司 用户, 就是 所有的 这种 商业 用户, 关心 的 都是 这个。 可以 说是 我的我 用 copilot 我的 代码 会不会 被, 甚至 有 说是 现在已经 怀疑 到 我 用 github 会不会 我的 代码 被 拿走, 很 直接 的 问题。 然后 包括 你的 训练 数据, 你 写 的 文章, 他 写 的 文章 是不是 在 抄 你的 文章, 现在已经 说不清 了。 滚滚 浪潮。
我 觉得 所以 隐私 是 比 安全, 至少 在 现在看来, 它是 一个 更加 更 现实 更 急迫 的。
我想说 的 是的, 隐私 安全 这些 东西 在 一个 AI 存在 的 未来 面前, 大家 都 急 红了眼, 根本 不会 关心 的。 你 就 看 OpenAI 的 前 一段时间 这个 事情, 某 一个 角度 的 解读 就是 发生 了 这样的 事情, 对 吧? 就是 资本 的 力量 战胜 了 所有的 安全 隐私, 所有的 concern。
我 还 觉得 挺 奇怪 的, open I 不是 有 一段时间 不小心 把 一个 用户 的 数据 发给 其他用户 看 吗? 我 觉得 他 居然 没有 一个 什么 赔钱 这种 事情。
这 说实话 这 很有可能 这 跟 语言 模型 都 可能 没关系 的 一个 事儿, 对 吧? 很有可能 就是 A P I 那 层 搞 什么 搞乱。
对, 但是 问题是 我 觉得 这是 极其 严重 的 事故。
这种 事情 说实话 它 严重, 但是 它 不是 一个 A I 本身 的 问题。 我记得 之前 那个 message 也 发生 过 类似的 事情。 Imessage, 对, 就是我 没有你 去 搜 一下, 不至于 你 去 搜 一下。
短信 发 太 信任 苹果 了。
对 不? 主要是 I M S C 就是 端 到 昨天 的 M 的, 我的 手机 你 都能 知道, 我 到 另外 一个人 用了 几个 苹果 设备。 因为我 要 给 他的 每一个 设备 单独 加密 一次 发 过去。 OK 有可能 别的 messaging APP。 对, 就 不是我 知道。
之前 比如说 语音助手 是 出过 这个 问题 的, 就 突然 听到 别人 家的 那个 的 声音。
对对对。
但 这种 其实 因为 美国 的 法律 是你 要有 政府 的 部门 要 追查 这些 案件 对 吧? 然后 再去 罚 他们 才 可以。 这种 一般 可能 就是 对 这 政府。
可能 就 没有 办法 说有 实质 的 伤害。 对, 没有 实质 的 伤害, 对, action 也 未必 能 拿到。 好, 对对对 吧。
这个 就 很难 去 证明 是 他是 怎么 这个 错误。
对。
纽约 时 日报 现在 在告 OpenAI, 就是 他们的 训练 数据 用了 纽约时报。 我 其实 还 蛮 期待 这 一场 的 法律 判决 的。 现在 很多 的 数据 都在 这些 媒体 的 出版商 的 手里。 社交 媒体 是 一类, 马斯克 收购 twitter, facebook 可能 有 一些, google 上 可能 有 一些。 然后 还有 就是 很大 的 媒体 的这 一块儿。 如果说 媒体 的 这场 官司 没有 打赢 的话, 我 觉得 反正 就是 以后 对 data 的 问题 还 挺 有意思 的对, 因为 它的 数据 是 非常 相对 准确 和 高质量 的对。
但是 实际上 现在 是不是 说 能 用了 来 塞进去 的 数据 都 几乎 已经 用了。
是的, 所以说 之后 我 也很 关注 这个 案件, 因为 高质量 的 数据 对于 大 语言 模型 非常重要。 你 如果说 是 完全 无偿 的 拿 过来 去 训练 你 大 语言 模型 之后, 你 这个 收益, 那你 到 最后 原作者 产生 这个 高质量 的 这些 人 到底 应不应该 同时 获得 收益? 就 当 OpenAI 它是 一个 完全 的 non profit 非盈利组织 的 时候, 这个 事情 是 可以 的对 吧? 我 拿 你的 这个 工具 来 造福人类?
我 非盈利组织 我 都不 同意。
但是 我 觉得 他他 一旦 开始 考虑, 就 我 个人 的 我自己 认知 就是 他 一旦 开始 考虑 你是 拿 过来 还 收费, 还 盈利 那么 多 钱 的 时候, 对 这个 问题 就 更大 了。
对对对, 是 这 样子 的, 感觉 都 讨论 到 企业 的 原罪 了。
不是, 就是 实际 我想说 两点。 第一 就是 关于 现在 这 数据 这个 时代, 我 觉得 这是 无法 避免。 但是 从 另一个 角度 来说, 我 更 关心 更 基础 的 一个 问题, 就是现在 是不是 已经 太迟 了, 或者说 这个 东西 实际 已经 不重要。 就是说 是 该 能被 塞进去 的 东西 几乎 都 已经 被 塞进去 了。 单纯 从 更多 语料 的 意义 上 来说, 这个 数据 的 价值 是不是 已经 到 边际 递减 的。 还有 视频。
就是 google 现在 就 拿 视频 来 训。 因为 文字 语料 有可能 整个 互联网 上面 的 语料 是 够了。 但是 我们 还有 很多 这种 视频, 图片、 语音, 这些 还是 蛮 多 的。 有 道理。 再往下 就是你 这种 视频 之后, 有可能 就像 无人 车 一样, 你就是 现实 世界 去 采 数据, 因为 这个世界 这些 数 这 都是 有 逻辑性 的对 吧?
用户 问 你的 这些 问题 可能 比 网上 随便 数据 还要 管用。
所以 我 觉得 数据 应该 短期 不会 是个 boat neck, 还是 有 一些 东西 可以 训 的。 所以 我 觉得 训练 到 GPT six 有可能 还是 可以 的。
这个 意思 我的 看法 是 模型 得 改 了。 这里 边 很多 包括 它的 处理方式, 包括 一些 很多 你们 做 那个 agent 什么的 处理方式。 因为我 知道 大 运行 模型, 你 必须 把 所有的 输入 第一次 留给 它是 吧? 你是 没有 办法 stream 一些 信息 进去, 让 他 stream 的 给你 结果 的。
他们 快 可以 做了。 他 他们 在 做 他们 在 做 streaming text 进去。
stream text 出来 的 这个 事情。 但是 技术 上 这个 是 怎么 实现 的。
这个 你 得 看 transformer 是 没有 办法 支持。 但是 我知道 他们 有人 是在 做 这个 事情。
这就是我 其实 想说 的, 就是 那种 接下来 可能 需要 有 这 样子 的 变化, 然后 一定程度 上 这个 是 模型 本身 可能 不 一定要 能 接着 走 transformer 这条路 了。
这个 是我 觉得 有可能 的, 就有 可能 transformer 个 这个 方。
而 这个 一旦 变 的话, 对 数据 的 需求 的 各方面 可能 都 会有 比较 大 的 变化。 他的 需求量, 需求 形式 什么 都 会有。
因为 现在 不是 有 paper 说, 你的 data quality 有时候 高于 quantity。
对, 但是 一个人 长 到 十 来岁, 你 接触 的 不管 是 语料, 各方面 的 资料 是 远 小于 这个 的。 就是说 人的 算法 是 远 好 于 transformer 的。 这个 方向 的 努力 可能 是 让 这个 提升 更快 的 一个 方向。
好的, 再加上 脑机 接口, 这个 未来 想象 中更 可怕 了。
机 接口 是 每 一期 都会 变成 哲学问题 吗?
谢谢, 登上 火星 才行。
好, 谢谢 大家。
好了, 这就是 我们 今天 的 节目。 我们 原 录音 是 有 两个 半小时, 最后 剪出 这 非常 精彩 的 一部分 给 大家。 如果 大家 对 AI 时代 的 智能 硬件 有 什么样 的 想法 呢? 欢迎 大家 给 我们 写 评论, 写 留言, 我们的 节目 也会 持续 来 关注 AI 给 各行各业 带来 的 变 话。
如果 对 我们 节目 感兴趣 的 听众, 可以 通过 小宇宙、 苹果 播客、 喜马拉雅、 蜻蜓 F M、 荔枝 F M、 网易 云 音乐、 Q Q 音乐 来 关注。 我们 海外 的 听众 可以 通过 苹果 播客、 spotify 还有 google podcast 来 关注 我们。 感谢 大家 的 收听, 谢谢。