We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode Vol16:「多模态」的 GPT-4 和 PaLM-E 会带来什么?能主动打扫卫生的 AI 发布

Vol16:「多模态」的 GPT-4 和 PaLM-E 会带来什么?能主动打扫卫生的 AI 发布

2023/3/12
logo of podcast 脑放电波

脑放电波

AI Deep Dive AI Chapters Transcript
People
尼克松
托马斯
Topics
托马斯认为谷歌发布的PaLM-E模型及其重要性被大众忽视,该模型参数量巨大,能够成功操控机器人完成复杂任务,其价值尚未被充分认识。他还探讨了多模态的概念,认为多模态交互能够使人机交互更真实,并举例说明了PaLM-E在机器人控制、图像识别和复杂任务处理方面的强大能力,认为其将极大推动家政服务机器人的发展。此外,他还分析了神经网络算法的发展历程以及算力提升对人工智能发展的影响,并指出PaLM-E的学习方式更接近人类,可能带来强人工智能的出现。最后,他还展望了多模态模型与AR技术的结合,以及在金融分析等领域的应用前景。 尼克松详细解释了多模态的概念,并举例说明多模态交互的优势,认为多模态语言模型能够处理多种类型的信息,并生成多模态内容,更接近人类的学习方式。他还介绍了PaLM-E的几个主要能力,包括图像信息解读、推理能力、自主找活能力以及机器人控制能力,并通过具体的例子展示了PaLM-E的强大功能,例如识别图片中的物体、进行逻辑推理和预测任务等。此外,他还讨论了GPT-4即将发布的消息,并指出其可能也是一个多模态的大语言模型,认为多模态模型的出现可能改变人们对隐私的观念,并展望了家务机器人等技术对人类生产力释放的积极影响。

Deep Dive

Chapters
讨论了多模态的概念及其在人工智能中的应用,解释了多模态如何通过整合不同类型的数据(如文本、声音和图像)来增强模型的能力。
  • 多模态是指整合不同类型的数据,如文本、声音和图像。
  • 多模态模型能够处理和生成多种类型的信息,类似于人类的学习方式。
  • 多模态模型可以显著提高信息处理的效率和准确性。

Shownotes Transcript

大家好, 欢迎来到 脑 放 电波, 我是 托马斯。 大家 可能 发现 我们的 名字 改 了 因为 电台 字样 目前 在 国家 规定 里面 不能 由 个人 来 使用, 所以 我们 也是 很多 朋友 的 建议 之后, 我们 把 名字 改成 了 脑 放 电波。 我想 这个 名字 可能 跟 我们 脑 放 的 概念 还 蛮 契合 的。 今天 我们 请 到了 ny x on, 不再 是以 我们 嘉宾 的 身份, 我们 从今天开始, ny x on 将 成为 我们 脑 放 电波 的 常驻 主播 nixon, 跟 大家 打个招呼。

大家好, 我是 大家 的 老朋友 nixon, 对, 从事 X R 行业。

今天 想 聊 一个 最近 在 A I 整个 领域 非常重要 的 一 新闻。 但是 我 目前 在 整个 媒体 圈 或者 是在 整个 社交 的 讨论 中, 我 觉得 大家 可能 忽视 了 这件 事情 的 重要性。 就是 在 3月7号, google 发布 了 他们 最新 的 一个 大 语言 模型, 叫 palm E P A L M 杠 E。 这个 模型 我 看到 其实 也有 一些 报道, 但是 大部分 的 报道 只是 简单 的 介绍 了 说 这是 一个多 模态 的 大 语言 模型。 但是 基于 这个 模型 的 更 详细 的 介绍, 或者说 更 详 更多 的 讨论 就 没有了。 我 觉得 今天 我们 就 想 利用 这个 博客 跟 大家 好好 聊 一下。

我们 在 ChatGPT 里 我们 已经 震撼 了 非常 长 的 时间 了。 但是 今天 我们 接受 到 我的 心灵 的 震撼。 我们 觉得 可能 这个 东西 目前 来讲 还没有 被 充分 的 被 媒体 和 大众 意识到 价值。 但是 我们 觉得 他 今天 值得 拿来 讲一讲。

那大 的 背景 是 3月7号 的 时候, 谷歌 发布 了 一个 新的 语言 模型, 叫做 胖 一。 Palm e 这个 东西 来说 的话, 它 首先 来讲, 它的 这个 参数 变得 超级 大有 5621个 参数, 大家 可以 对比 一下, 就是说 GTP3 是 有 1750亿个 参数, 所以说 我们 发现 整个 参 数量 翻 了 很多 倍。 除此之外 来说 的话, 他们 还 会有 一个 非常 成功 的 demo 演示, 我们 看 了 之后 确实 是 非常 成功。 它 这个 语言 模型 能够 成功 的 让 机器人, 让 一个 机械臂 自己 去 生成 任务。 比如说 把 一团 把 不同 的 小球, 不同 的 方块 放在 他的 面前, 他 自己 会 知道 按照 颜色 形状 来 归类。 所以 就是说 这样的 一个 模型, 它 已经 不 只是 在 虚拟世界 能够 帮助 我们 去 交互 了。 但 反而 说 能够 在 现实 世界 生成 非常 强大 的 这样的 人工智能 的 机器人。

对 我们 看到 一些 这个 评论 里面, 他们 在 说, 是不是 天王 里面 的 那个 机器狗 要 来了, 对 吧? 所以说 我们 觉得 这个 其实 是一个 非常 值得 讲 的 一件 事情, 把 它 作为 了 我们 今天 的 主题。 我们 觉得 今天 要 首先 要 从 第一个 大 的 方向 开始 讲 起, 这个 叫做 多 模态, 我们 请 托马斯 来 跟 大家 讲一讲 模态 是 怎么回事。

那 什么 是 多 模态 呢? 这个 词 可能 听起来 有点 不太好 理解, 因为 在 汉语 中 模态 这个 概念 可能 没有 被 广泛 的 应用 在 生活 里面。 但 其实我 觉得 大家 可以 用 简单 的 用 媒介 来 理解, 其实 也是 可以 的那 比如说 文本, 文字 它 就是 一种 模态, 声音 也是 一种 模态, 图像 也是 模态。

对 所以说 所谓 的 多 模态 就是 作为 一个 语言 模型, palm e 它 还 包含 了 其他 的 类型 的 数据。 不光是 语言, 实际上 pum 他们 这个 语言 模型 更 早就 已经 被 发布, 应该 是 可能 22年 就 发布 了 一个 语言 模型。 整个 palm 的 语言 模型 的 参 数量 是 5400亿。

那 为什么 我们 今天 这个 palm 杠 E 是 5620亿 呢? 因为 pum e 实际上 是 汤姆 这个 语言 模型 加上 了 一个 视觉 模型, 叫 White V I T 视觉 模型。 这个 视觉 模型 有 220亿个 参数, 所以 它 两个 加起来 之后, palm杠1 就是 5620亿个 参数 的 一个 语言 模型。 这个 模型 因为 它 跟 这个 wit 22B, 就是 这个 220亿 参数 的 视觉 模型 做了 一个 整合。 这种 整合 的 方式 一会儿 我们 可能 会 聊到。 通过 这种 整合 之后, 就 变成 说 pum 不再 是一个 单独 的 语言 模型 了。 而 它 同时 具备 了 处理 图像 的, 甚至 一些 复杂 的 机器人 的 这些 模态, 一些 嵌入式 设备 获得 的 传感器 的 一些 数据 的 处理 能力。 这个 是 我们 觉得 这个 pum e 区别 于 目前 的 ChatGPT 的 一个地方。

OK 我 觉得 说 了 这么 多, 可能 也 听 得 有点 晕。 我 觉得 大家 只要 理解 一点, 这个 就 pum e 整合 了 语言 以外 的 东西, 那么 它 到底 区别 H T T P T, 它 能 做什么 不一样的 事情 呢? Nixon 要 不能 给 大家 介绍 一下。

多 模态 是什么 意思 呢? 其实 多 模态 是 过去 几年 很多 做 机器人 和 人机交互 的 人 很喜欢 讲 的 一个 词汇。 我不知道 大家 有没有 见过 未来 车上 的 那个 nimo, 那个 小 A I 对 吧? 那 他 简单 来说 那个 小 nimo 那个 小机器人 它 就有 三个 模态。 第一个 模态 是 他的 表情, 就是 他的 那个 小 屏幕, 他 通过 图像 视觉 的 信息 向 你 表达 他的 情绪。 第二个 模态 是 它的 声音, 它 通过 声音 向 你 传递信息 和 进行 交互。 第三个 模态 是什么 呢? 第三个 模态 是 那个 小机器人, 它 会 左右 扭动, 这种 身体 的 姿态 其实 也是 一种 模态。

所以说 的话, 其实 多 模态 交互 其实 可能 最最 常见 的 是 说 我们 过去 一些 年, 我们 看到 有 一些 家长会 给孩子 买 那种 小机器人。 这种 小机器人 它 可能 会有 一只 大眼睛。 那 这种 小机器人 我们 就会 发现 说, 它 除了 正常 用 智能 的 语音 跟 儿童 交互 之外, 它 还 经常 用 语音。 而且 他们 那个 小眼睛 来 表达 非常 多 的 情绪。 然后 小朋友 遇到 这种 多 模态 的 东西 的话, 他 会 非常 的 兴奋, 对 吧? 所以说 多 模态 交互 其实 大家 就可以 理解 为 我们的 无感, 对 吧? 就是 人体 的 人体 的 不同 的 感官, 你 有你 能 收到 来自 两个 或者 三个 感官 以上 的 这种 信息, 那 这种 就是 多 模态。

那多 模态 的 好处 是什么 呢? 多 模态 的 好处 简单 来说 就是 你的 交互 会 更 真实, 比如说 今天我 去 看 一个 电影 对 吧, 那 呃 可能 这个 电影 我会 发现 说, 一个 好的 电影院 它的 音效 可能 会 非常 棒, 对 吧? 那就是说 除了 视觉 之外, 你的 听觉 的 模态 被 增强 了, 这 是一种 增强。 还 会有 一些 很 特别的 电影院, 它的 音响系统 特别 好。 到了 大片 的 环节, 你 会 发现 整个 店面 的 椅子 好像 都在 震动, 对 吧? 那 这 这种 那 这种 的话 其实 就是 声音 它 还 带着 带动 了 一个 新的 模态, 就是 震动 的 一个 模态。 所以 就是说 我们 一般 认为 说 从 交互 上 来说, 是 我们 最 容易 接触 多 模态 的 一个 概念。 那多 模态 它的 一个 好处, 他 就是说 从 如果 你是 做 一个 接触 的 一个 东西 做 交互, 那 他 就会 更 真实。

然后 的话 接下来 我要 讲说 多 模态 这个 东西, 他 和 我们在 聊 的 这种 大规模 的 这种 语言 模型 有 什么样 的 关系。 其实 很多人 用 G T 用 这个 GPT3, 他 会 发现 一个 问题, 就是说 GPT3 它它 是 只能 处理 这个 文字 信息 的。 我 今天 好像 没有 办法 拷贝 一个 链接 丢 给他, 或者说 我 今天 丢 一张 图片 给他, 问 他说 这个 图片 里面 有什么 意思, 对 吧? 其实 这就是 GPT3 的 一个 局限, 就是 它 不能 处理 多 模态 的 一个 信息。 那 不能 处理 多 模态 的 信息, 自然 也就 不能 生成 多 模态 的 东西, 对 吧? 所以 大家 自然而然 也会 想到, 就是说 我 能不能 有 一个多 模态 的 一个 语言 模型。

我 举 一个 很 切实 的 例子, 现在 小红 书上 的 一些 虚拟 的 虚拟人 的 博主, 他 会 怎么做? 他 会 用 他 会 用 GPT3 先生 成 这种 脚本, 然后 再 用 这个 GPT3 的 脚本, 他 去 他 把 它 丢 到 另外一个 模型 里面, 他 把 那个 文字 变成 一段 语音。 然后 再 接下来 的话, 再 用到 第三个 模型, 他 第三个 模型 生成 了 一段 虚拟人 的 动画, 对 吧? 他 再 把 第三个 模型 修订 的 动画 给 它 合 起来。 总而言之, 它 需要 通过 非常 多 模型 的 配合, 它 才能够 生成 一个 这种 完整 的 一个 虚拟人。 跟 你 去 带 货 或者 去 跟你讲 一个故事 的 一段 视频。 但是 有了 多 模态 的 语言 模型 之后, 这件 事情 可能 就 不一样 了。 那多 模态 的 语言 模型 里, 首先 你 给 它的 输入 可能 就是 多 模态 的对 吧?

你 既 可以 告诉 它 文字, 也可以 告诉他 语音, 当然 也可以 告诉他 一段 视频, 说 我要 参考 的 就是 这 段 视频 里 的 所有 信息, 对 吧? 那 他 生成 的 东西 当然 也会 是 多 模态 的那 那些 虚拟人 博主 他 要 生成 脚本, 生成 语音、 生成 视频, 可能 这 三个 工作 步骤 他 就 把 它 合成 一起 了。 我 能 一次性 的 把 我 这个 机器 生成 的 已经 剪辑 好的 这个 视频 就 直接 丢 给你, 你 就 把 它 丢 在 小红 书上 就 好了。 所以说 多 模态 语言 模型 它 意味着 是 它它 其实 更 像 真实的 人类, 对 吧? 其实 这 很 像 人 学习 一个 东西 的 过程。 所以 我 就 觉得 说, 这样的话, 这个 人工智能 模型 就 更 聪明 了。 他他 处理 信息 他 会 更 聪明, 他 生成 的 东西 他 也会 更 聪明。 所以 大概 这个 就是 多 模态 的 这么 一个 概念。

我们 现在 看到 的 palm e 它 这个 模型, 从 谷歌 官方 的 blog 看到 的 这个 demo, 看起来 还是 很 震撼 的。 在 这个 demo 里面 我 看到 虎哥 给 他的 指令 是 给我 一包 薯片。 他说 give me the chips from the drawers, 就 是从 抽屉 里 拿 一包 薯片 给我。 然后 在 在 这个 视频 里面 有一个 机器人, 他 收到 了 这个 指令 之后, 它 就可以 完成 一系列 非常复杂 的 操作。 包括 如何 打开 抽屉, 在 抽屉 里面 要 定位 到 这个 薯片, 然后 把 薯片 拿 起来, 再 拿给 下下 指令 的 人。 这 一系列 的 操作, 相当于 只需要 通过 palm e 这样的 一个 模型 就可以 实现 了。 而 不像 刚才 nixon 举例 的, 如果你 要在 网上 编 一段 视频, 需要 非常复杂 的 操作。 那那 在 这个 机器人 的 操作 里面, 用 一个 语言 模型 就可以 完成 对 机器人 的 操控。

另外一个 例子, 它是 说 把 不同 的 小方块 按照 颜色 放到 4个角。 我 看到 这个 机器人 也 非常 快捷 的 完成 了 这个 操作, 也就是说 结合 了 视觉识别 的 模型 之后, 我们 可以 通过 自然语言 去 对 一个 机器人 下 指令。 而 这个 机器人 可以 非常 好的 识别 你的 问题, 并且 通过 它的 图像识别 的 能力, 在在 这种 复杂 的 模态 下 发现 要 怎么 去 解决 这些 问题, 并且 把 它 解决 掉。 里 然后 这 里面 还 举 了 很多 非常 细细的 例子。

在 另外一个 例子 里, 我们我们 在 谷歌 的 这个 blog 里面 看到 它 描述 说 它 在 同一个 模型 上 可以 解决 非常 长期 且 精确 的 任务。 他们 证明 了 将 新 任务 推广 到 训练 时 没有 见到 的 这些 这个 任务 的 能力。 也就是说 他在 训练 的 时候 并没有 见到 一些 东西, 但 他 仍然 可以 有 办法 去 完成。 比如说 他他 举 了 个 例子, 就是 他 有一个他 把 一个 红色的 这个 方块 推 到了 咖啡杯 上, 而 那个 咖啡杯 在 训练 的 时候 是 没有 的对, 这个 是 我们 看到 的 这个 胖 M E 在 机器人 这个 场景 下 的 非常 让人 很很 震惊 的 demo。

因为 一直以来 其实我 对于 这个 A I 的, 对于 人工智能 的 想象 里面, 机器人 一直 都是 非常重要 的 一部分。 ChatGPT 出来 之后, 我一直在 想说 这个 伴侣 类 的 机器人, 就是 这种 陪伴 型 的 机器人, 应该 接下来 会有 很 好的 发展。 因为 它它 作为 一个 语言 模型, 已经 能够 很 好的 跟人 对话。 但是 在 这个 palm e 出来 之前, 其实 这个 机器人 更多 的 应该 是一个 固定 的 坐在 某个 桌子 上 的 一个 陪伴 型 的 机器人。 它 可能 只有 语言 的 功能, 而 没有 办法 做 其他 的 事情。 有了 这个 多 模态 的 这种 语言 模型 之后, 已经 可以 想象 一个 家政服务 类 的 机器人, 可能 在 未来 很短 的 时间 里面 就有 可能出现 在 我们的 家里 了。 因为 现在 看到 的 这个 demo 效果 已经 十分 的 惊人。 这 里面 还 不是说 跟 你 只是 完成 什么 情感 陪伴, 或者 是 聊聊天 这样的 一个 任务。

它 已经 可以 执行 很多 细节 的 家政 型 的 任务 了。 我们 之后 会 把 这个 图片 跟 这个 blog 的 地址 放到 我们的 show note 里面。 它的 机器人 是一个 很 好玩的 一个 有着 一个 可以 运动 的 底盘, 然后 上面 是一个 机械臂 的 这样的 一个 设备。 那 当然 目前 还 不是 类人 型 的 机器人。 但是 即便 是 这样的 一个 设备, 我 觉得 已经 可以 解决 非常 多 的 家政服务, 护理类 的 这样的 工作。 这是我 看到 的 一个 比较 有意思 的 我 觉得 比较 有意思 的 关于 机器人 的 应用, 你 还有 看到 哪些 你 觉得 有意思 的 点 吗?

对, 需要 说明 的 是 胖 M E 其实 它的 核心能力 并不是 说来 指导 机器人 哈他 其实 只是 说 指导 机器人 是 它的 一个 非常 突出 的 一个 showcase 而已。 我们在 泡 面上 还 看到 了 一些 其他 非常 亮眼 的 show case。 比如说 给他 一张 在 A B A 赛场 的 照片, 然后 问 他说 这些 这些 球员 这些 球员 都是 哪 支 球队 的, 然后 哪 支 球队 最近 一次 夺冠 是 哪一年? 然后 的话 明星 球员 是谁? 可能 连续 几个 问题 抛 给 他 会 分别 的 去 告诉 你们 白衣服 是 哪个 支队, 蓝 衣服 是 哪 支队。 然后 的话 哪 支队 的 明星 球员 是谁。 也就是说 他 其实 已经 具备 了 能够 把 你 大家 看啊 球衣 的 颜色, 球衣 上 的 图标? 这样的 信息 跟 这个 具体 的 球队 以及 球队 的 一些 历史记录, 可能 是 文字 信息 的话 结合起来。 然后 的话 形成 一个 推理 的 推理 问题 的 一个 能力。

我们 还 看到 一些 非 更加 精 更加 不错 的 一些 show case。 比如说 他 会 看到 一个 这种, 叫做 路边 可能 有 两个 牌, 上面 一个 牌 写 了 不要 进入, 下面 一个 牌 写 了 这个 自行车 除外。 那 你可以 问 他 一个 问题, 就是说 我 骑 这辆, 我 骑着 一辆 自行车, 我 应不应该 进入 这条 小道, 帕米 他 会 给出 答案, 而且 是 分 步骤 的。 给他 会 告诉 你说, 首先 标志 分别 都 是什么 意思。 第一步 第二步 告诉你 两个 标志 的 含义, 然后 第三步 告诉 你说, 但是 他说 了 自行车 可以 进, 所以 我 给你的 答案 是 你可以 进入。

也就是说 这种 情况下, 其实 胖 蜜 她 已经 具备 了 一定 的 规则 解读 的 能力 和 规则 推理 的 能力。 这个 是 非常 优秀 的, 这个 就 很 接近 人类 了 这个 就 很 接近 人类 了。 而 不是 像 ChatGPT 那样, 他 只是 把 一些 网络 上 熟悉 的 文本 重复 给你, 他 有了 独立 的 思考 和 推理 的 能力。 所以说 这个 也是 我们 看到 非常 经典 的 show case。

对我 我 觉得 简单 的 说, 就是 大家 现在 我相信 大部分 人, 如果 大家 对 科技 感兴趣 的 人, 应该 都 已经 玩 过 ChatGPT 了, 对 吧? 我们 大概 知道 说, 我 已经 可以 通过 对话 的 方式 来 让 他 帮 我 做 很多 的 事情, 但是 这个 就是 仅限于 对话。 但是 现在 我们 看到 的 这个 胖 M E 的 这些 用例, 都 是我 先 给你 一张 图, 然后 我 再 跟 你 基于 这个 图片 来做 讨论。

我 还 看到 另外一个 也是 官方 的 一个 demo, 它 给出 了 两张 图, 这 两张 图 其实 就是 几乎 一样的 图, 有点像 我们 玩 大家来找茬, 他 把 这 两张 图 发给 这个 模型 之后 就 问 他说 有 哪一个 东西 是在 图 一里 有, 但是 图 二里 没有 的, 这个 模型 就会 反馈。 他说 让 我们 一步一步 来看, 他 就 告诉你, 图 一 有一个 太阳镜 放在 了 一沓 叠好 的 衣服 上, 这个 是 完全 是 机器 根据 图片 识别 给出 的 文字 的 这个 描述。 我 觉得 这个 挺 还 挺 惊人 的, 相当于 他他他 把 这个 话 原话 告诉你。 首先 你看 图 一 里面 有一个 太阳镜 放在 叠好 的 衣服 上, 然后 图 二 没有 眼镜 放在 叠好 的 衣服 上, 所以 眼镜 就是 出现 在 图 一里, 但是 没有 出现 在 图 二里 的 那个 东西。 也就是说 我们我们 如果 未来 要 调细 pum e 的 时候, 我们 可以 调戏 它的 方式 可能 会 比 跟 ChatGPT 要 好玩 很多。 它它 已经 相当于 他的 这个 玩法 整个 上升 了 一个 维度, 我们 已经 可以 用 图片 来 跟 他 沟通 了。

而 他的 反馈 目前 看 是个 完全 可以 识别 的, 非常 清晰 的 识别 这个 图片 里面 的 这个 呃 内容, 而且 它是 可以 完成 很 复杂 的 问题, 而 不是 一个 简单 的 问题。 我 看到 另一个 例子 里面 是是是 一张 科比 在 运球 的 照片。 你 把 这个 照片 给 模型 之后, 你 问 他说 画面 中 左边 的 这个 球员, 也就是 科比, 他 赢 过 多少次 总冠军 戒指? 然后 首先 这个 图片 要 识别 这个 人是 科比, 这个 是 图片 识别 的 能力。 他 再去 读取 他的 这个 大 数据库 里面 的 关于 科比 拿了 多少 个 总冠军 的 这个 信息, 然后 给出 了 结论, 科比 拿 过 五次 总冠军, 这个 也是 一个 非常 神奇 的 用例。

对, 然后 我 还想 补充 一个 用例, 也是 非常 厉害 的。 就是 刚才 说 了 有 推理 能力, 有 多种 信息 整合 的 能力。 还有一个 能力 是什么 呢? 预测 能力, 这个 预测 能力 是 什么样 的? 用力 是 这样的, 丢 给 一丢 给 这个 模型 一张 脏乱 的 咖啡桌 的 一张照片, 就是 桌子 上 咖啡店 的 桌子 上, 可能 客人 刚 走 到处 有 各种 东西, 然后 这个 可能 烟头, 甚至 是 那个 水杯 都有。 然后 他 就 会说 如果 一个 机器人 要在 这边 有用, 对 吧? 要在 这个 场景 下 有用, 他 应该 做什么? 这个 模型 会 吐出来 几个字 说 首先 应该 清理 桌子, 然后 把 这个 垃圾 捡起来。 然后 接下来 清理 椅子, 然后 再 擦 干净 椅子 之后 再 把 椅子 放 回去。

这种 感觉 让 我 看到 什么 呢? 让 我 感觉 我 看到 了 一个 小学 四五年 级, 然后 已经 具备 了 成熟 的 规则意识 的 一个 小学生。 然后 他在 面临 一个 他在 面临 一个 脏 桌子 的 时候 的 表现, 就是说 这个人 已经 懂了 人类 社会 的 规则, 而且 已经 会 自己 找 活 干了, 所以 这个 种 这种 预测 能力 是 也是 在 泡 M E 的 这个 模型 里面, 目前 看到 了 非常 优秀 的。

包括 他们 也 展示 了 一些 随便 给 机器人, 他 可能 不给 任何 指令, 就是 给 机器人 给 那个 机械臂 各种 场景。 然后 就 发现 这个 机械臂 就 好像 就会 很 神奇 的, 自己 就会 开始 去 分类, 或者 就 给 机械臂 一个 打开 的 抽屉, 抽屉 里面 有 包 东西, 那 这个 机械臂 会 自己 不由自主 把 这个 东西 拿 起来。 我们 之前 说 ChatGPT 可能 是 一个九岁 的 孩子, 可能 现在 这个 孩子 的 这个 年龄 已经 长大了, 这个 孩子 已经 知道 了 更多 人类 社会 里 他 应该做 的 事情。 所以 给 我们的 感觉 是 非常 震撼 的。

其实 这个 大概 就是 胖 M E 这个 模型。 我们我们 看到 3月10号 的这 篇 blog, 大概 带给 我们的 一个 比较 震撼 的 一个 结果。 昨天 其实 还有一个 新闻, 就是 GPT4 可能 要 发布 了。 但是 这个 目前 还 不是 一个 非常 官方 的 新闻。 他是 来自于 德国 的 微软 的 C E O 在 一个 会上 提到 了 说 我们 下 个 礼拜 GPT4 就要 发布 了。 大家 知道 这个 ChatGPT 实际上 是 基于 GPT3.5 的 这样的 一个 聊天 模型。 那 GPT4 实际上 因为 3.5 已经 做到 这么 吓人 了。 大家 对 GPT4 其实 有 非常 高 的 期望值。

网上 也有 各种各样 的 谣言, 包括 最 开始 的 一种 说法 是 说 GPT4有 十 有 100万亿 的 参数。 因为 我们 知道 刚才 提到 了 GPT3是 1750亿, 当然 这个 100万亿 的 参数 已经 被 证明 是 谣言 了, 这是 不可能 的。 这个 发布 时间 我 觉得 大 概率 应该 是真的, 因为 它是 来自 微软 德国 的 C T O, 但是 他 也 明确 的 提到 了, GPT4 也是 一个 支持 多 模态 的 大型 语言 模型。

这个 就 很 有意思 了, 我们 也就 忽然 能 理解 为什么 谷歌 要 忽然 放出 了 这个 胖 M E 的 信息, 因为 感觉 也是 很着急 的 把 这个 demo 放 出来。 因为 我们 知道 OpenAI 在 ChatGPT 出来 之后, 实际上 把 在 这个 A I 这个 领域 里面, 其实 是 将 了 谷歌 一 军。 相当于 他 后来居上, 成为 了 现在 毫无疑问 整个 A R 领域 最 热 的 一个 话题。 ChatGPT 也 因为 它 非常 好的 易用性, 也是 快速 得到了 应该 是 历史上 最多 的 这种 人工智能 的 产品 的 用户。 谷歌 一定 是 希望 扳回 一 城, 而且 我相信 他们 也 知道 GPT4快 发布 了, 所以 他 肯定 要 抢先 把 多 模态 这件 事情 讲 出来。 如果 GPT4 也是 这个 多 模态, 那 它 也 我 我相信 在 性能 上 应该 也会 达到 像 胖子 这样的 一个 水准。

这个 我 觉得 还是 非常 值得 期待 的 一件 大事。 我 觉得 可能 对于 大众 来讲, 大家 可能 还是 更容易 被 一些 像 ChatGPT 又说 了 什么 惊人 之 语, 或者 是 必应 新的 这个 病 是 跟人 谈恋爱 了, 还是 又说 说 了 什么 暴躁 的话, 又被 微软 阉割 了 等等。 更更 可能 就是 这些 新闻 可能 更容易 传播 一些。 但是 我 觉得 多 模态 这件 事情, 其实 他 没有 获得 足够 高 的 关注。 我 觉得 这个 是 非常 在 我们 看来 还是 非常 令人震惊 的 这种 能力。

那 到底 什么 是 多 模态 呢? 我 觉得 我们 可以 从 最早 的 这个 人工智能 的 这个 算法 最最 开始 聊。 我们 知道 其实 神经网络 算法 是 现在 人工智能 的 一个 核心 的 算法。 这个 算法 实际上 1960年代 就 已经 出现了。 但是 因为 我们 也 知道 那个 时候 的 电脑 的 算 力 其实 是 不足以 支撑 这种 算法 能够 实现 它的 目标 的。 因为 神经网络 算法 只要 层数 稍微 多一点, 它的 他 对 这个 算 力 的 需求 是 非常 巨大 的那 到了 1990年代, 其实 更多 的 人 开始 研究 有效 的 神经网络 的 算法, 当时 他们 发现 就是 谷歌 的 一些 专家, 他们 发现 你 想要 驱动 有效 的 神经网络 算法 的的 算 力 的 需求 是 当时 的 现有 算 力 的 100万倍。 也就是说 在 1990年代, 如果你 想 用 神经网络 的 算法 去做 去 去做 一个 模型 的 训练, 你 需要 当时 的 算 力 只有 100万分之1, 也就是说 这个 是 根本 不可能 完成 的 事情。

当然 我们 知道 后面 的 故事 一直 从 1990年代 到 甚至 到 现在 摩尔定律 让 算 力 实际上 得到了 持续的 爆发式 的 增长。 到 大概 2005年 开始, 这个 算 力 就 开始 逐渐 可以 支撑 得了 神经网络 的 计算所 需 了。 所以 从 2005年 开始, 整个 人工智能 的 应用 开始 爆发。 我们我们 其实 在 那个 时候 开始, 就有 了 大量 的, 基于 人工智能 的 一些 创新 进入 到 我们的生活, 帮助 我们 更好 的 工作 和 生活。 比如说 最早 可能 就是 google 在 用 这种 神经网络, 通过 识别 了 youtube 上 可能 几千万 张 照片, 学会 了 如何 认识 一只猫。

到 2013年 专用 计算 的 芯片 T P U 诞生 了, 它 其实 就是 针对 这种 神经网络 而 设计 的 一种 专用 芯片。 它 通过 简化 了 其他 的 计算能力, 但是 强化 了 跟 神经网络 相关 的 这些 专用 计算 的 能力, 就 大大 提升 了 这种 人工智能 的 算 力。 那 相当于 进一步 让 这个 算 力 成本 降 得 更 低。 所以 在那 之后 的 不久, 阿尔法 狗 就 用 这种 T P U 的 能力。 可能 是 几百 片 还是 几十片, 具体 我 也没有 看啊。 就 打败 了 人类。

这个 是 2014年 201 1314年 的 一个 头条新闻。 那 整个 过程 中的 所有的 神经网络 的 计算, 人工智能 的 学习, 包括 这些 模型 的 训练 都是 单 模态 的。 也就是说 比如 图像识别 的, 它 就 都是 识别 大量 的 图像, 它 通过 大量 的 图像 来完成 学习。 现在 流行 的 ChatGPT, 它是 通过 大量 的 语言包 语言 参数 来完成 学习。 它 都是 独立 的 模型, 而且 做 独立 的 用途。 这些 数据 之间 也是 没有 办法 交流 的。

其实 可以 简单 举 一个 例子, 就是 好像 说 A I 在 学习 视频 的 时候 和 我们 学习 视频 的 时候 完全 不一样的。 我们 学习 视频 的 时候, 我们 可以 听见 这个 视频 对应 的 配音, 对 吧? 然后 我们 可以 从 配音 里面 感受到 整个 视频 的 节奏, 包括 想要 传达 的 一些 情绪。 但 A I 可能 确实 他 会 更更 孤独 一些, 他 自始至终 都在 看 一个 静音 的 视频, 大家 可以 这么 理解。

对, 所以说 回来, 我们 看到 这个 到 现在 为止, 电脑 的 学习 方式 就是 刚才 nex 说 的, 他是 只能 在 单 一个 模态 下 做 学习。 而 人类 的 学习 方式 其实 就是 多 模态 学习 的。 就是 我们 从 最 开始, 比如说 我们 正常 健全 的 人类, 我们 其实 有 听到 声音, 我们 有 看到 画面, 我们 可以 通过 声音 和 画面 的 结合 不断 的 强化, 拿着 一个苹果 苹果 苹果, 我们 就 知道 这个 东西 叫 苹果 了。 这个 其实 就是 我们 人类 的 这种 学习 方式。 而且 我们的 学习 是 不断 的 基于 我们 大脑 这个 模型 在在 学习 的。 我们 学 的 每一个 东西 它 都是 储存 在 我们的 大脑 里, 可能 是 当然 是 可能 是在 不同 的 位置, 但是 当我们 需要 的 时候, 我们 就可以 快速 的 在 大脑 里 把 它 调用 出来, 对 吧?

但是 机器 的 学习, 他每 一次 学习 都是 从头开始, 忘记 一切, 就是 他每 一个 学习 都是 独立 的, 这个 模型 是 A 模型 B 模型 和 B 模型。 这些 模型 独立 的 学习, 而且 是 每一个 模型 学习 就是 为了 完成 某 一个 任务。 比如说 我 学 了 几千万 张 照片, 就是 为了 学习 猫 长 什么样。 我 如果 下次 要 学 狗 的 时候, 我 又要 从头开始 学。 但 人类 不是 这样, 人类 他 可以 很快 的 通过 这种 交叉 的 学习, 多 模态 的 这种 输入, 很快 就 会有 触类旁通 的 能力。 但是 机器人 或者说 电脑 它的 学习 在 过去 是 不行 的。

但是 现在 的 这个 新的 palm 它 叫 pathway 的 这个 模型, 它 就可以 做到 这种 多 模态 的 学习 了。 整个 人工智能 可能 又 到了 下一个 阶段, 它的 学习 方式 已经 非常 接近 人 了。 其实 我们 之前 看 这个 ChatGPT 的 学习 阶段, 它 就 很 像 一个人 在 学学 语文。 那 今天 他 可能 就 不光是 学语文 了, 他 可能 同时 还要 学 数学, 也许 就要 要 要 学 这个 力。 因为 它 有 这个 机器人 的 模态, 对 吧? 有可能 要 学 物理, 那 他 那那 理论上 我 只要 不断 地 加 一些 新的 模态 进去, 那 他 就可以 像 人 一样, 就像 我们 从 小学 中学 各方面 的 综合 的 学习。 这个 其实 就 那 是不是 强 人工智能 就有 可能 会 出现了。

对, 强 人工智能 其实 比较简单, 你可以 理解 为 就像 人 一样的 人工智能。 因为 现在 现阶段 ChatGPT 好像 像 人 一样 可以 跟 你 对话? 早期 的 必应 还有 情绪, 有的 时候 还会 生气, 会 吃醋 等等。 但是 我们 非常 清楚 的 知道, 现阶段 的 这些 模型 它 只是 在 模仿 它 本身 只是 通过 这个 大 语言 模型 的 学习 来 判断 接下来 他 输出 什么 内容 可以 取悦 你, 对 吧? 那 这个 过程 他 其实 并不知道 他说 的 是什么, 他 也 不能 理解 这个 内容 的。

当然 我 觉得 如果我们 把 人类 抽象 成, 比如说 有有 一些 先天 可能 聋哑 或者 什么样 的这 这 这 这个 人类, 它 只有 一个 只有 一种 输入 方式 的 这个 状态 下, 其实 这个 人类 好像 也 无法 构成 智能, 对 吧? 如果我 是 同时 龙 又 哑 我 又 瞎, 我不知道 有没有 这个 人类学 研究, 这个 可能 我们 之后 可以 去 查一下。 但是 我相信 这样的 人 在在 他的 智力 发育 一定 是 缓慢 于 人类 的, 他 一定 是 相对 更 困难 去 完成 学习 的。 但是 如果 一个人 或者 一个 人工智能, 它 能够 以 多 模态 的 方式 有 大量 的 符合 的 信息 输入, 让 他 可以 去做 这种 综合类 的 学习 的话。 我不知道 这个 有没有可能, 也许 就 产生 了 一个 真正 的 强 人工智能。

这么 聊 有点 太 抽象 了, 有点 过于 有点 太 抽象。 对。 但是 我可以 讲一讲 说 强 人工智能 其实 也有 一些 判别 标准。 比如说 图灵测试, 这个 大家 都是 知道 的对 吧? 然后 还有 一些 测试 标准, 一些 这种 计算机 历史 科学 上 的 一些 大牛 提 过 的。 比如说 能 不能说 这样 具备 这样 人工智能 的 一台 机器人, 你 把 它 丢 到 一个 新的 茶水 间 里面 去, 他 能够 自己 去 知道 怎么 去 泡 一杯咖啡, 对 吧? 他 能够 学习 这 里面 的 所有 空间, 然后 知道 说 泡 杯 咖啡 是 怎么回事。

这个 我 觉得 还有 已经 可以 了, 对不对?

对, 今天 看到 的 这个 机械臂, 他 没有 秀 这个 demo, 但 我相信 他 已经 十有八九 了。 我相信 那个 十有八九 了。

对, 它 可以 识别 咖啡机, 它 可以 识别 咖啡 和 水, 我相信 是 没问题 的对。

以及 还有 一些 测试 标准, 比如说 希望 他 能够 去做 一个 这种 具备 经济 推算 能力 的 雇员。 所谓 经济 推算 能力, 就是说 他 能够 比如说 一些 衡量 现实 世界 里 一件 事情 的, 告诉你 应不应该 做, 应该 怎么做。 今天 pom e 展示 出来 的 demo, 可能 他 还没有 到 这种 一个 成年人 承担 工作 的 一个 角色。 但是 你 会 发现 说 他 可能 还 暂时 还 不能 完成 工作 里 的 推理。 但是 他 已经 完成 他 已经 能 完成 一个 体力劳动 的 一个 推理 了, 对 吧? 他 看到 一个 脏乱 的 桌子, 他 知道 我应该 怎么 去 清扫。 他 OK.

那 聊 回来 我们 看到 这种 多 模态 的 输入, 这种 辨识 能力。 包括 刚才 nixon 举 的 那个 例子, 也是 来自 谷歌 这个 blog 里面 提到 的 这个 demo。 它 可以 识别 一个 路牌 对 吧? 它 可以 认出 科比, 它 可以 知道 两张 图 的 区别。 我们 相信 假以时日, 这种 识别 能力 其实 是 可以 很 好的 应用 在 生活 领域 的那 这 里面 我们 觉得 我我我 又 想 绕 回来 讲一讲 X R 一旦 到了 GPT4 或者 是 胖 M E 这样的 多 模态 的 模型, 它 可以 对 图像 进 有效 的 识别 之后, 那 情况 就 完全不同 了。

我们 知道 A R 眼镜 它是 可以 通过 摄像头 感知 外部环境 的对 吧? 它 能够 获得 环境 中的 不管 是 位置 信息、 深度 信息, 还是 图片 里面 的 所有的 信息。 它 可以 识别 道路 的 交通 牌 了, 对 吧? 它 可以 识别 我 迎面 走过来 的 这个 科比布莱恩特 了, 那 这个 时候 他 就可以 反馈 非常 多 的 信息 给我 了。

结合 这种 A I 的 能力, 我 觉得 一个 日常 佩戴 的 A R 眼镜 就 变得 非常 有 价值。 这个 眼镜 它 可能 不需要 太太 强 的 算 力, 它 需要 的 是 很 好的 很 宽 的 这种 图形 带宽, 能够 把 这个 图像 信息 传回 我们。 也许 是 云端 的 这个 大 模型 的 这个 数据库。 我 觉得 这 里面 的 想象 空间 非常 的 大。 比如说 就像 谷歌 官方 的 这个 demo 里面 的 这个 路牌 的 识别, 这个 应该 是 基本 盘 了, 最 基本 的 就是我 直接 问 我的 眼镜 这条街 我 能不能 骑单车 过去? 那 他 会 很快 的 识别 这个 牌子, 告诉我 说 你可以 对你。

还 可以 想象 这样的 一种 场景。 就 刚才 提到 说, maybe 下一次 当你 带着 一个 A R 眼镜, 然后 它是 有 这种 在云端 有 泡 面酱 的 服务 的 时候, maybe 他 还会 告诉 你说, 上一次 你 从 这里 骑过去 的 时候, 路边 冲出来 了 一只 狗, 然后 那只狗 对你 造成 了 惊吓。 那 maybe 如果 今天 你 还要 再从 这里 骑着 过去 的话, 你 要 担心 这只狗 是 怎么回事, 对 吧?

然后 这个 是 生活 里 的 例子, 我 再举 一个 这种 工作 里 的 例子。 这种 工作 里 的 例子 跟 X R 是 没有关系 的, 但是 跟 那个 多 模态 是 有关系。 比如说 今天 我们 要 做 一个 决策, 比如说 我们是 做 产品 研发 的, 我们 做 决策 可能 就 会说 我们会 去 看图纸 是什么 样子, 对 吧? 然后 可能 我们 也会 去 看 工程师 列出来 的 数据 里面 是一个 表格, 然后 maybe 我们 还会 去 听 一些 在 跟 同事 里面 听到 一些 这种 音频, 或者 是 自己 记录 一下 一些 文字 OK。 这是 三个 模态 的 信息 数据 对 吧? 那 我会 把 这 三个 模态 的 信息 数据 做 一定 的 处理, 最后 得到 一个 推理 和 结论。 你 会 发现 多 模态 的 这种 数据 的 学习 和 推理, 其实 它 就 很 像 我们 今天 在 工作 里 怎么 去 理解 一个 问题 和 做 一个 决策 的对 吧? 对 所以 就会 发现 说 整一个 的 效率 怎么会 几何 倍 的 提升。

那你 以往 maybe 你 让 ChatGPT 帮你 做 的 事情 是 帮 我 总结 一篇 文章 是 怎么回事, 帮 我 总结 这份 财报 是 怎么回事。 但 明天 可能 你 能 做 的 是 说, maybe 你 能把 苹果公司 的 财报 电话会? 以及 苹果公司 最新 的 产品 拆解, 这 三件 事情 也 同时 丢 给 苹果, 同时 丢 给 一个 语言 模型。

然后 你 问 语言 模型 说 在 苹果公司 最新 一季 的 财报 里, 增长 最快 的 产品 是什么? 在 这个 产品 上 我应该 关注 哪些 零部件? 最后 我应该 去 买 哪些 零部件 上游 厂商 的 股票? OK, 我可以 想象 说, 这个 其实 就是 一个 我们在 产业链 里 经常 遇到 的 一个 推理 的 过程, 对 吧? 那 maybe 这样的 推理 的 过程, 未来 就 应该 是一个 大 语言 模型 来 帮你 做, 而 不是说 这个 大 语言 模型 它 只 告诉你 财报 里面 说 了 什么 信息, 电话会 说 了 什么 信息, 拆解 里 说 了 什么 信息。 O K 你 没有你 有没有 办法 把 它 come back 在一起。 但是 so far 如果 是 这样的 语言 模型 能够 做 的 很好, 他 会 真的 很 像 那些 券商 的 分析师 一样, 他 能够 把 这 三个 信息 结合 在一起, 这 非常。

有 想象 空间。 也就是说 这个 ChatGPT 让 客服 失业 之后, 这个 新的 模型 出来 连 分析师 都要 失业 了。

这个 还 真是 可能 一些 初级 的 分析师 就要 失业 了。 对。

确实 是 这样, 而且 这个 事情, 我 觉得 可能 也会 重塑 我们 整个, 包括 其实 现在 的 H T P 也是, 就 大家 整个 对 隐私 概念 的 定义 可能 都 会有 一些 变化。

我们 对 隐私 的 态度 可能 会 发生 转变。 这是什么 意思 呢? 我 举 一个 例子, 就 硅谷 现在 有 一家 创业 公司 叫做 revise。 那 R E W I N D 这家 公司 是 干什么 的? 他 发明 了 一种 压缩算法, 它 能够 把 你 在 mac 的 这个 电脑 上 呈现 过 的 所有的 屏幕 的 画像 画面 和 你 在 麦 根据 迈克 电脑 你说过 的 一些 话, 也就是 你 开 过 的 每一个 会都 给 记录下来。 他 也 给 记录下来 之后, 他 做 一个 几百倍 的 压缩, 然后 他 最后 给你 一个 什么样 的 东西?

这家 公司 提供 的 服务 叫做 人生 搜索引擎, 就是你 在 mac 电脑 上 看过 和 讲 过 的 所有的 东西 和 事情。 它 能够 通过 它 能够 同时 把 屏幕, 就是 视觉 这个 模态 的 信息 和 你说过 的话, 就是 麦克风 录 到 的 音频 这个 模态 的 信息 给 录 在一起。 最终 你 想要 任何 时候 想要 去 搜索 的 时候, 你 就可以 搜索 到 那的 他 就可以 解决 一些 问题。 比如说 上个星期 老板 开会 的 时候 跟 你说 了 一件 事情, 结果 你 突然 想不起来 了, 那个 事儿 是什么 来着, 对 吧? O K 你可以 到 这个 应用 里面 去 搜索, 对, 这家 公司 已经 已经 拿了 融资 已经 拿了 融资, 他 可以 回溯 你 在 网络 上 做 过 的 一些 事情。 大家 可以 想象, 如果 有 这样的 一个 压缩 的 应用, 然后 你 再 把 它 你 再 把 所有 模态 的 数据 打包 给 一个 多 模态 的 语言 模型, 对 吧? 然后 maybe 这个 多 模态 语言 模型, 它 就 真的 能够 预测 你 正在 做 的 一些 事情, 未来 会有 什么样 的 后果, 然后 告诉你 应该 怎么样 去 调整, 对 吧? 这是 非常 有意思 的 一件 事情。

隐私权 的 定义 其实 是 跟着 技术 发展 一直 在 变迁 的, 甚至 在 很早 的 时候, 大家 对于 摄像头, 尤其 公共 空间 的 摄像头 的 应用 都有 很大 的 争议。 就是你 应不应该 在 这儿 弄 一个 摄像头, 是不是 侵犯 了 我的 隐私权 等等。 但是 后面 其实 大家 尤其 在 中国, 我们 连 刷脸 支付 都 已经 很 普及 了。 那你 你说 通过 人脸识别, 其实 你 什么时候 出现 在哪里, 我 觉得 政府 是 非常 清楚 的。 所以 为什么, 从 好的 一面 来看, 我们 现在 非常少, 我 觉得 犯罪率 在 国内 应该 下降 的 非常明显, 大家 的 这个 隐私权 来 换取 了 这种 安全。

同时 我们在 我 我们在 这个 电脑, 手机 的 使用 中, 其实 也会 经常 让渡 自己的 一些 隐私权。 比如说 你你你 访问 这个 抖 音, 你的 喜好 对不对? 抖 音 会 推荐 你 要 的 一些 商品。 然后 你 会 发现, 怎么 抖 音 推 给你的 东西, 你就是 很想 买的。 那 这 里面 当然 他 侵犯 了 你的 某 某种程度 上 他 侵犯 了 你的 隐私权, 但是 他 换取 了 很多 的 便利, 就是 刚好 那个 东西 你 要 买, 他 就 推送 给你 了, 但是 有些人 他 觉得 我 这个 太 可怕 了, 对 吧? 这个 电脑 完全 知道 我的 喜好, 他 甚至 他 知道 我要 买 什么。 然后 每个人 千 人 千面, 每个人 打开 抖 音 刷 出来 的 视频 都 不一样。 这个 还是 现在 这个 时代 的 隐私权 的 现状。

再 过 十年, 大家 敢不敢 想象 一下 那个 时候 是什么 样子, 吧? 我们 家里的 那个 我相信 十年后 我希望 每个人 家里 都 可以 有一个 家务 机器人 了, 对 吧? 因为 感觉 他 在 demo 里 看到 的 那个 机器人, 他 已经 可以在 厨房里 干活 了。

这个 对于 人类 的 生产力 的 释放 也是 巨大 的。 过去 我们 可能 百分之七八十 的 时间 用来 找 食 要 用来 找 食物, 后来 变成 我要 用来 种地 对 吧? 要 换取 食物, 换取 住房, 这些 基本 的 生活 要素 就 占用 了 我 所有的 时间。 到 后面 有了 分工 之后, 当然 最早 是 奴隶制 或者 封建制, 就是 少数 的 贵族 阶级 他 不用 劳动 了。 他用 他的 空闲 时间 发展 出了 艺术 科学 等等等等 一系列 的 东西。 然后 直到 今天 我们的 科学 的 爆炸, 有了 我们 今天 更加 细致 的 这种 分工, 这种 家务 机器人 的 出现, 其实 又会 进一步 的 释放 我们的 闲暇 时间, 对不对?

那 我们 连 我 我们 现在 可能 除了 8小时 的 上班, 可能 要 加上 加班。 那 回家 之后 你 还是 要 花 一些 时间 在 这些 家务 的 事情 上。 这些 事情 也 被 机器人 取代 了, 这 其实 是一个 很 美好的 一个 未来。 我们 有 更多 的 闲暇 的 时间 可以 去做 一些 人类 才能 做 的 一些。 去 创造性 的 这个 事情。 但是 反过来 讲 你 对 这种 人工智能 的 使用 越 深入, 其实 人工智能 就 越 了解 你。

那那 它 其实 基于 你 完全 可以 生成 一个 大 数据 的 模型, 这个 模型 包括 了 你的 所思 所 想、 所作 所 行, 你的 微表情, 因为 视频 也可以 被被 捕捉, 你 那个 家政 机器人 干活 的 时候, 它 可能 有 个 摄像头 对 着 你, 对 吧? 我们的 我们 平时 用 的 这个, 我相信 十年后 我们的 A R 设备 或者 M R 设备 应该 已经 很 普及 了。 我们 希望 那个 设备 它 其实 也 在 记录 你的眼 动 的 规律, 对不对? 你的眼 而且 眼 动 很 可怕。 我们我们 现在 用 抖 音, 我们 只是 手指 停留 在 什么 地方, 我们 点 了 哪里, 对 吧? 这个 已经 被 这些 什么 淘宝 们, 但 记得 非常 清楚 了。 那 到时候 我 连 我 眼睛 停 在哪里 他 都 记得 很 清楚。

这个 广告商 投 广告, 你 想想 多 可怕。 Nickson 就 喜欢 看 腿, 给 nixon 推 的 广告 产品 就 放在 腿 旁边, 对 吧? 因为 每个人 还是 有 个性化 的 区别, 就 好像 到时候 的 广告 就 真的 是 千 人 千面 了。 他的 千 人 千面 会 更加 细节, 他 会 细节 到 A 这个 A A 同学 他 就 喜欢 看 美女 大 胸 的 广告, 而 B 同学 喜欢 看 猛男, 他 可以 具体 到 非常 明确 非常 细节 的 这种。 你看 向 哪里, 你 停 了 多久, 你的 反应, 这些 反应 也是 个 模态, 对 吧? 然后 这些 模态 现在 看起来 未来 的 A I 的 趋势 就是 多 模态 化。 而且 刚才 也 提到 了 这个 的 那个 ted 里面 他 也 提到 了, 他们 希望 也能 改变 这个 现状。

就是 每一次 人工智能 都是 从零开始学, 每一个 模型 都是 独立 的那 他们 也 倾向 于 未来 就是 一个 巨大 的 模型, 这个 模型 包括 了 非常 多 的 模态, 更多 的 信息 都在 里面。 就像 大脑 一样, 你 越 复杂, 你的 结构 越 复杂, 你 越 可能 产生 很强 的 这种 互相 的 关联 效应, 然后 产生 这种 大力出奇迹 的 结果。 那 对 十年后 无法 想象, 如果 一个 如此 巨大 的 模型, 它 能够 它它 一定 比 人 作为 个体 来讲 要 强大 非常 多倍, 因为 它是 一个 巨大 的 集合。 好像 我们 又又 说 的 有点 科幻 了。 好的, 我们 还是 回到 现实 世界, 我们 这个 科幻 的 部分 先 收 一 收。

说 回 这个 胖 M E, 我 觉得 到 现在 为止, 我 觉得 整个 大众 对 他的 关注 还是 不够 的。 我们 预测 一下 多 就是 多 模态 语言 模型 这件 事情 在 未来 的 一段时间 里 会越来越 受 关注, 尤其是 当 他的 demo 出来 之后。 对, 因为 现在 大家 不 关注 的 原因 是 它 只有 demo 还玩 不到, 对 吧? 大家 一定要 保持 对 A I 这个 领域 的 持续的 关注, 我们我们 的 脑 脑 放 电波 也会 持续的 关注 这个 领域。

好的, 最后 为 大家 highlight pum e 呈现 出来 的 几个 优秀 的 能力。 第一, 能够 从 图像 里面 去 解读 图像 所 表达 的 信息。 比如说 能够 识别 科比, 能够 搜索 到 科比 有 几个 总冠军 戒指, 对 吧? 然后 的话 能够 去 玩 这种 大家来找茬 的 游戏。 第二个 点 是 具备 推理 能力, 比如说 根据 一个 路标 知道 什么样 的 车 应该 进, 什么样 的 车 不应该 进, 应该 给你 什么样 的 建议。 以及 第三个 是 能够 自己 给 自己 找 活, 看到 一个 脏乱 的 桌子, 意识到 应该 要 去 打扫 它。 以及 最后一个 也是 最 也是 可能 对 未来生活 最有 想象 空间 的, 他 能够 去 指导 一台 机器人 在 一个 厨房 里面 去 完成 各种各样 的 工作。

好的, 我们 今天 的 节目 就 到 这里, 感谢您 收听 脑 放 电波。 脑 放 电波 是 一档 关注 科技前沿 品牌营销 和 个人成长 的 谈话 类节目。 每期 带给 您 一个 有趣 的 话题, 帮 您 在 信息 严重 过载 的 现代 世界 小幅 自我 迭代。 您 可以在 小宇宙、 苹果 播客 或者 其他 泛 用 型 播客 客户端 搜索 脑 放 电波, 找到 并 关注 我们。 如果 您 对 本期 节目 有 任何 疑问, 欢迎您 给 我们 留言。 如果 您 觉得 本期 内容 对 您 有所 帮助, 欢迎您 关注点 赞、 收藏、 转发, 这 对 我们 非常重要。 好了, 本期 节目 就 到 这里, 让 我们 下期。

再见再见。