We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode 多模态GPT-4o的诗与远方,和走进田野与工厂的大模型-Vol48

多模态GPT-4o的诗与远方,和走进田野与工厂的大模型-Vol48

2024/5/15
logo of podcast 脑放电波

脑放电波

AI Deep Dive AI Chapters Transcript
People
主播
以丰富的内容和互动方式帮助学习者提高中文能力的播客主播。
郭胜
Topics
OpenAI不太可能推出AI搜索引擎,因为其在用户体验和商业生态方面与传统搜索引擎相比存在差距。传统搜索引擎也在逐步融入AI技术,与AI搜索引擎的差距并非如想象中那么大。AI搜索引擎在小众领域表现较好,但在信息可靠性和速度方面仍逊于传统搜索引擎。AI搜索引擎的商业模式和生态尚不成熟,这限制了其发展。AI搜索引擎并非搜索引擎的迭代,而是AI应用的综合入口,其未来发展方向是成为个人助理。大多数语音助理并未完全接入大模型,其功能有限,且难以避免幻觉问题。 金融领域对数据来源的可靠性要求极高,更倾向于使用官方渠道获取数据,而非搜索引擎。金融领域对AI模型的应用非常谨慎,上线前会进行严格的评测,并设置多道防线以应对模型的潜在问题。大模型应用提高了信息抽取的准确率和效率,降低了人力成本,但并未完全取代人工。企业应根据自身业务场景选择合适的模型,并建立相应的评测标准。大模型和小模型结合,以及结合传统方法,可以有效提高效率并降低成本。多模态模型的训练是通过将不同模态的数据(例如图像和文本)编码成向量,并利用其相似性进行训练。目前的多模态模型大多是将不同模态的数据分别处理后再进行拼接,而原生多模态模型则是在统一的框架下进行处理。多模态模型是迈向通用人工智能的重要一步,但要实现通用人工智能,还需要解决数据生成等问题。目前模型训练数据都来源于人类,因此难以超越人类智能,未来需要探索如何生成超越人类感知的数据。未来大模型的发展趋势是采用混合专家模型(MoE)架构,以提高效率并降低成本。

Deep Dive

Chapters
讨论了OpenAI推出AI搜索引擎的可行性,分析了AI搜索与传统搜索引擎的区别,以及AI搜索在实际应用中的体验和挑战。
  • AI搜索在信息多样性和结构化输出方面有优势,但在速度和信息可信度上存在问题。
  • 传统搜索引擎在处理高频和标准答案查询时表现更好,且有成熟的商业生态。
  • AI搜索可能更适合处理需要内容组织和深入分析的问题。

Shownotes Transcript

欢迎 收听 老方 电 播, 一档 关注 科技前沿 有趣 的 谈话 类节目。 就在 过去 两天, OpenAI 和 谷歌 都 发布 了 在 A I 方面 的 最新进展。 在 多 模态 方面 GPT4O 和 google astra 都 增强 了 视觉 能力, 打开 手机 摄像头 就能 直接 和 A I 进行 对话, 也可以 通过 共享 投 屏 A R 眼镜 的 方式, 让 A I 作为 你的 助理, 语音 上 A I 具备 了 丰富 的 语气 和 情感 对话。 在 搜索 方面, 谷歌 让 gm I 重塑 了 搜索引擎, 具备 了 多 步骤 推理 的 能力。 比如 可以 列出 一次性 旅行 的 每一步 详细 计划。 那么 多 模态 是什么? 为什么 谷歌 会 这样 改造 搜索引擎? 我们 还 邀请 了 一线 从业者 来 讲述 依靠 A I 帮助 农业 制造业 的 落地 洞见。 通过 收听 本期 节目, 相信你 会对 多 模态 和 A I 搜索 有 更多 了解。

大家好, 欢迎来到 脑 放 电波。 大家 知道 我们 台 其实 是一个 对 A I 非常 关注 的 一个 播客 节目。 但是 我们 回头 刷 了 一下 过去 的 记录, 我们 发现 进入 2024年 之后, 我们 其实 就 没有 再聊 过 AI 大 模型 的 话题 了。 上 一期 我们 聊过 了 A I 硬件, 那么 这 一期 我们 想 回到 A I 大 模型 的 话题, 但是 这 期 我们 不会 去 再聊 一遍, 更好 的 这个 对话机器人 在哪里。 在 本期 我们 将 更 关注 一 几个 由 A I 带来 的, 更加 贴近 我们 现实生活 的对 产品 和 商业 的 变化。 在 本期 节目 里面 我们会 聊 一 聊 GPT 即将 推出 的 搜索 产品, 以及 现在 看到 的 关于 wwdc 的 预测, 苹果 手机 很快 也将 有可能 会 用上 ChatGPT 这样的 产品, 去 聊 一 聊 A I 搜索 即将 开始 的 这个 我们 觉得 会 非常 精彩 的 一场 商战 的 这个 画面。

对, 我们 录制 的 这个 时间 刚好 是 open I 发布会 的 前一天 希望 我们 说 的 东西 不会 被 打脸。

对, 所以 我们 也会 简单 的 预测 一下, chat P P 马上 要 开 的 这个 发布会 会 聊 什么 内容。 以及 第二 趴 我们会 聊 一 聊 在 实际 的 生产 与 生活 中, 在 制造业 中, 在 金融业 中, 到底 大 模型 是 如何 被 真实 应用 的。 在 第三阶段 我们 还是 要 畅想 一下, 我们 未来 的 这个 GPT5 的 关于 多 模态 的 话题。 因为 我们 其实 一直以来 对 多 模态 这个 话题 很感兴趣。 我们 也 知道 GPT5 被 称为 是 第一个 原生 多 模态 的 模型。 那 究竟 什么 是 多 模态? 原生 的 多 模态 跟 现在 的 这种 缝合 怪 的 多 模态 在 效率 上 跟 能力 上 有 什么样 的 区别? 也是 本期 我们会 探讨 的 话题。 为了 更好 的 去 探讨 这些 跟 多 模态, 跟 大 模型 在 商业 上 落地 的 这些 话题, 我们 今天 请 到了 一位 特别的 嘉宾, 郭 胜 博士。 郭 博士 是 现任 网商 银行 人工智能 部 的 副总经理, 他是 多 模态 和 大 模型 相关 算法 的 专家, 我们 来 欢迎 郭 博士。

大家好, 我 叫 郭震 博士, 毕业于 中国科学院 模式识别 智能 系统 专业。 现在 在 网商 银行 从事 深度 学习 和 多 模态 相关 的 算法 研究 工作。

我们 今天 其实 蛮 多 东西 都 正好 是 跟 郭 博士 的 研究 和 从业 经历 是 相关 的。 我们 先 开始 讲一讲 商战 的 部分。 OpenAI 一直 在 传说 即将 在 明天 开 一个 线上 发布会, 然后 有有 很多人 认为 这个 是 GPT5 即将 来了。 彭博社 报道 OpenAI 还在 跟 苹果 达成 了 一个 协议, 就是 iphone 上面 马上 就能 用上 那个 OpenAI 的 chatbot 了, 对 吧?

对 苹果 这个 消息 很 有意思, 因为 之前 苹果 更多 传绯闻 的 是 谷歌, 对 吧? 我们 都 听说 苹果 要 拿到 谷歌 的 最 优先 的 接入 权, 然后 会 在 他的 搜索 里面 加入 G M I 的 这个 大 模型 的 能力, 跟 C I 做 整合。 现在 又 传出 了 OpenAI 的 这个 协议, 我们 现在 不太 明 不太 清楚 它 究竟 是一个 二选一 的 状态, 还是 说 siri 将 接入 两个 不同 的 模型, 然后 把 所有的 好的 东西 都 抓 在 手里, 因为 我们 也 知道 现在 OpenAI 应该 还是 整个 在 行业 里面 最 领先 的 模型 的 能力。 比较 可靠 的 消息 是 说 他们 现在已经 接近 close the deal。 对。

但是 苹果 的 消息 还是 有点 远, 毕竟 要 到 下 个 月初, 我们 聊 一 聊 明天 的 事情。 关于 OpenAI 发 的 事情, 其实 有 很大 的 两个 猜测。 一个 猜测 是 觉得 gbt 5要出来, 但是 因为 三个 奥特曼 自己 本人 出来 辟谣 了, 所以 就 没有了。 但是 所以 是 大家 会 猜测 说, open a 你 指定 要 去 干 搜索引擎。

因为 搜索引擎 可能 是 就 互联网, 大家 自然而然 觉得 它是 跟 A A I 最最 相关 的 一个 应用 场景。 包括 就是说 有人 就 去 找到 那个 research 点 这 OpenAI 点 com, 类似 这样的 域名 灰度 内测 的。 就是说 他 现在 问 open I 一个 问题, 问 ChatGPT 问题, 它 有 两个 变化。 第一个 变化 是 它 会给 你 网上 最新 的 信息, 就是 这个 信息 是 及时 的。 第二个 他 会 把 那个 信息 对应 的 索引 给你。 就是说 我 是从 哪几个 网页 得到 的 这个 信息 就 给你, 就 像是 我们。 所以 就 相当于 这个 搜索 就会 有一个 好处, 就是说 原来 你是 需要 在 网页 里 找 答案, 那 现在 你 不用 点 进 网页 了, 他 就 直接 把 答案 给你。 如果你 有 兴趣。

你 再去 点 进 网页。 其实 OpenAI 的 ChatGPT 接入 搜索 能力 应该 我 印象 中 是 蛮 久 了。 在 他 宣布 这个 事情 的 时候, 大家 很 兴奋, 认为 接下来 首先 搜索 的 革命 就要 被 革 了。 然后 大概 在 不久 之后, 必应 就是 微软 结合 了 这个 GPT4 能力 的 这个 产品, 他 把 copilot 到 这个 B 里面 去, 其实 已经 做了 这个 对话 型 的 搜索。 但是 说实话, 我 当时 的 这个 应用 体验 没有 那么好, 因为我 发现 它 引用 了 信源, 尤其 在 中文 互联网, 它 大量 引用 知乎 的 内容。 所以 导致 很多 严肃 的 问题。 当你 去 通过 必应 来 搜索, 他 给你 一个 结果 的 时候, 我 觉得 这就是我 现在 自己 使用 这个 所谓 的 大 模型 搜索 的 这种 体验, 就是 他 会 告诉你 一个 结论, 但是 这个 结论 很 你 很难 相信, 他 就是你 要 花时间 去 验证 它。 他 很 像 我们 之前 聊 的 这个 程序员 用 口 拍 了 帮助 他 编程 的 时候, 当然 是 可以 写出 一堆 代码 给你, 可是 最后 你 还是 要 自己 看一遍。

我 其实 想要 问 一下 像 郭盛, 你们 工作 里面 可能 是 经常 是 涉及到 去 了解 网络 上 的 一些 信息 和 数据。 那你 你们 最 常用 的 方法, 你们 觉得 比较 靠谱 的 方法 是吗? 毕竟 你们是 金融 领域 用途。

我们 可能 就是 对 新能源 的 可靠性 可能 要求 比较高。 对, 就 比如 我们 要 查 一些 数据, 可能 就要 上 比如 官方 的 一些 平台, 或者 官 放 一些 公布 数据 的 一些 网站 去去 拿去 拿 这个 数据。 而 不是说 我在 百度 或者 谷歌 我 去 查 一些 数据, 然后 给 拿 一些 结论 出来。 第一个 不自信。 第二个 不是 申请 倒是 次要 的, 就 可能 就 这些 数据 会对 我们 来 的 有 一些 误导性 作用。

那 我 是不是 理解 理解 可能 你们 有的 时候 其实 更 向 于 倾向 于 用 爬虫 这样的 东西, 而 不是说 去 什么 搜索引擎 上 自动 去 用 着 那个。

脚本语言 去 找 他。 没有 爬虫 是一种 不 合规 的 方式。 OK 对 我们 我 我们 基本上 就 会有 一些 跟 一些 定点 的 一些 合作 机构 从 那 引入 数据。 对。

其实 这里 大家 就能 看到, 就是说 真正 的 非常 严肃 的 对于 数据 的 来源 非常 严肃 的 行业, 其实 它是 有 正规 来源 的那 其实 这个 正好 也是 呼应 到 我 对于 A I 搜索 我 使用 过后 的 一些 感受, 就是 A I 搜索 都有 哪些, 你们 比较 好 使用 到 的。 我 举 一下 例子, 可能 360AI 搜索, 然后 密 塔, 昆仑万维 天工, 这个 都是你 在 微信 小 程序 上 就可以 找到 的。 然后 海外 的话 那个 a publicity, 然后 的话 包括 谷歌 的 搜索, 自己 也 说 开始 逐渐 融入 这些 东西。

如果你 你 为 寻找 的 那个 问题 的 答案, 它 不是 特别的 大众化。 但 但凡 到了 一点 小众 化 的 领域, 比如说 像 这种 金融, 或者 是 说 我 经 我 做 产品 经理 的, 我 经常 就会 调研 哪个 产品 是 哪一年 发布 的, 哪一个 产品 哪一年 发布 的 时候, 几个 核心 的 信息 是什么? 经常 发现 我要 做 cross check, 就是我 要 做 交叉 验证。 然后 有的 时候 就会 出现 那种 问题, 就是说 他 能 直接 给我 一个 答案。 但是 如果我 在 谷歌 搜索 里, 我 去 找 2到3个 网页 去 交叉, 我 就 发现 那个 答案 可能 是 他 抓 了 一个 过时 的 网页 给 我的。 那 过时 的 网页 就 意味着 这个 对于 信息 的 描述。

你知道 很多 文章, 比如说 去年 3月, 他是 二三年 的 文章 还是 24年 的 文章, 对 吧? 那 去年 到底 是 哪一年? 其实 这样的 关键 的 时间 信息 就 很有可能 发生 错误。 所以 就是说 这个 就是我 使用 A I 搜索 的 一个 现在 的 心得。 就是我 觉得 很多 信息 其实 还是 需要 做 二次 的 验证, 当然 也有 一些 比较 好的 地方, 就 比如 是 说 它 其实 它的 输出 也有 一定 的 结构化, 甚至 是 多 模态 的。 我问 他 一个 问题, 他 会 把 那个 答案 几个 不同 的 索引, 他 会给 我 做成 一个 表格, 就是说 你 要 的 A 信息、 B 信息、 C 信息 分别 这个 信息 背后 包含 了 哪些 维度, 就是 结构化 做 的 很 好啊。 然后 的话 我 觉得 就是 把 于 传统 的 这个 传统 的 搜索, 你 只是 看到 一个 网页 变成 了 它 增加 了 一个 表格 的 模态。 或者 是 有的 时候 会 吐 直接 吐出 一些 图片 给我, 那 我 觉得 这 是一个 还是 不错 的 一个 东西。

对 密 塔 A I 的 搜索, 它 就 会有 这个 思维导图 跟 它的 信源 会 比较 清晰 的 给你。 然后 早期 的 必应, 他 也 提供了 这种 多 模态 的 结论, 比如说 他 会 输出 一些 图片 给你, 这些 我 觉得 都 算是 好的 体验。 就是 因为 我们 他 知道 你 要 去 验证, 那 他 就 把 他的 这个 信源 全部 都 列 给 你看, 一 一列 出来 一看, 果然 是 知乎 还是 无法 完全 采信。

然后 还有一个 体验, 它的 这个 结果 出来 的 速度 还是 慢 了 一些。 大 模型 的 这种 工作 原理 决定 了 它 就是 要 一个 token 一个 token 往 外 吐。 那 我们 再 回头看 搜索引擎, 他们 每次 就 百度搜 完 它 都 会有 一个 我 用了 多少 0.0000 几秒 来完成 这次 搜索。 那个 速度 的 效率 是 可以 用 肉眼 可见 的。 比如说 现在 的 这个 汇率 是 多少, 股票 的 指数 现 此时此刻 是 多少, 那 它 基本上 是 可以 一步 就可以 快速 的 反馈 输出 你 需要 的 答案。 在 这点 上 我 觉得 也是 传统 搜索 强于 这种 问答 形式 大 模型 的 搜索 的 一个地方。

从 这个 逻辑 上 来说, 我 感觉 就是说 传统 的 搜索引擎 其实 它 自己 针对 一些 大家 高频 的 需求。 比如说 你 搜 的 如果 北京时间 他 给你的 反馈 答案 的 模态 就是 一个 时钟, 对 吧? 然后 你 如果 搜 的 是 今天 的 比分, 他 给你的 模态 就是 一个 比分 版, 就是 A 球队 和 B 球队 的 这个 比赛 的 情况。

传统 的 搜索 和 现在 我们 大 模型 搜索 的 本质 上 区别 是什么? 就是 传统 的 搜索 它 可能 只是 基于 这些 原始 的 信息, 然后 给你 结构化 一下, 然后 就 给你 展现 出来。 然后 我们 大 模型 的 搜索, 它它 会 让 你 快速 的 去 给你 输入 这些 信息, 它 会 把 这个 信息 进行 总结, 进行 加工。 它 为了 让 你 这个 信息 更 丰富, 它 可能 来源 的 信息 可能 就 就 可能 比较 多, 就 可能 不是 我们 想要的 这些 来源, 所以 产生 了 一些 我们 不 想要的 结果。 对, 但是 它 好处 就是 它 能够 让 你 快速 的 理解 这个 信息, 你 不 原来是 可能 要 读 一篇 一 读 一个 页面, 全部 读完。 现在 可能 就是 读 一段 儿, 你 可能 就 把 他 信息 收拾 掉了。 但是 但是 这个 信息 的 可信, 刚才 你 讲 了 信息 的 可信度 可能 就 没有 传统 的 准确。

虽然 transformer 来 或者说 A I 搜索 来 回答, 比如说 托马斯 提到 的 慢, 但是 慢 的 反面 就是 他 给你的 信息 其实 相对来说, 可能 那个 数 它的 来源 是 比较 多样化 的对 吧? 它 经过 一定 提炼, 所以 这也是 我的 一个 心得。 就是说 如果 你是 想要 了解 一些 有 一定 的 有 一定 的 深入 性 的, 然后 的话 不是 有 标准答案 的 东西, 你 用 一下 这个 A I 搜索, 反而 体验 还 挺好的。 比如说 我 前段时间 遇到 的 一个 问题, 就是我 要 查 一个 国家 的 签证 政策。 我 就会 发现 如果我 去 一个 网页 点 开, 然后 它 有 A B C D 不同 的 说法, 对 吧? 那 这个 我 个人 的 体验 就 很 不好 了, 因为我 要 点击 很 多次, 切换 很 多次。 但是 如果我 是在 A I 搜索 里 问 这个, 那 A I 搜索 可能 可能 这个 A I 表现 的 比较 好, 他 就 直接 告诉我 说 你 这个 问题 可能 有 A B C D 几种 答案 列 给 你那 这种 情况下, 其实 你的 那个 体验 反而 是 还 蛮 好的。

吧? 结果 可读性 要 高。 还有一个 它的 慢 可能 主要 我 觉得 主要 不在 于是 大 模型, 而 在于 后台 的 硬件 成本 问题。 因为 一个 是用 CPU1个GPU, 毕竟 G P U 的 价格 现在 比 C P U 要 高。

好几十倍 所以 关于 体验 上, 我 觉得 最后 我 再 提 一个点, 就是说 我 试试 用过 那个 360AI 搜索。 它的 那个 搜索 包括 昆仑万维 的 那个 天空 搜索。 他 给 我的 印象 很大 的 一个点, 就是说 这 玩意儿 它 不是 一个 传统 的 搜索引擎。 什么 叫 不是 一个 传统 的 搜索引擎 呢? 就是说 它的 界面 里, 它 其实 给 了 非常 多 的 这种 工具 的 入口。 比如说 他 如果你 是在 搜 那个 写作 优化, 他 就 直接 告诉 你说 你 不用 跳 到 这个 具体 的 网页, 我 就能 帮你 去做 那个 写作 优化, 我 就能 帮你 去做 翻译 的 一个 事情。 所以 我 觉得 这个 也是 这 一波 A I 搜索引擎 很大 的 一个 特点。

就是说 他们 好像 是 比 以往 的 搜索引擎 更 往前 跳 了 一步。 就是 以往 你 有 搜索引擎 也是 为了 找到 那个 工具 和 服务。 那 他 今天 很多 搜索引擎, 就是说 我 这 所谓 的 A I 搜索, 他 就是说 我 借着 搜索 之名, 但是 我 直接 把 那个 所谓 的 agent 或者 所谓 直接 把 那个 工具 我 就 集成 在 我我我 这 里面 了。 所以 今天 的 搜索引擎 它 就是 不 像是 一个 网页 检索 的 一个 工具 了, 它 更 像是 一个 信息 围绕 信息 的 一个 综合 的 一个 入口, 互联网 综合 工具 的 入口。

这也是 为什么 像 比尔盖茨 他们 这帮 人, 他是 有 明确 的 观点。 他 认为 说 以后 你 去 买东西 和 搜 网页, 你 不用 去 谷歌 和 亚马逊。 你 可能 你的 手机 上 或者 你的 电脑 上 有一个 个人 助理, 有一个 agent 对 吧?

你 问 他他 就 帮你 把 搜索 的 那个 不是 那个 事情 就 给 干掉 了。 大概 就是这样 的 一个 观点。 所以 总结 一下, 就是 刚才 提到 了 速度慢, 但是 信源 多, 然后 更 像 综合信息 入口 这个 问题。 这个 是 现在 A I 搜索 的 一个 体验 的 特点。

但是 如果你 仔细 去 看 A I 搜索 这件 事情, 如果 对比 我们 传统 的 搜索引擎, 我 觉得 他 就会 有一个 问题, 就是说 其实 传统 搜索引擎 没有 我们 想 的 那么 落后。 这是我 要说 的 第一个 点。 就是说 其实 今天 主流 的 搜索引擎 就是 传 就是 A I 搜索 有的 那些 优点, 比如说 什么 直接 给你 答案 对 吧? 我 有 多 模态 的 信息, 我 能够 直接去 摘取 一些 关键词 给你 形成 这个 关键 信息 的 summary。 其实 这个 东西 今天 的 谷歌 和 百度 里面 已经 有了。 然后 我 比如说 我我我 昨天晚上 问 了 谷歌 一个 问题, 就是说 谷歌 的 C E O 是 哪一年 出生 的, 他 就会 把 谷歌 C 他 直接 给 了 答案。 同步 把 这个 人的 类似 于 简历 一样的 就列 在 了 网页 右边 对 吧?

那 如果你 继续 往 下 翻, 你 还能 看到 谷歌 会 给出 一个 新闻 tab, 就是 关于 这个人 近期 的 新闻。 你看 新闻 是不是 一种 模态, 对 吧? 然后 谷歌 会给 一个 图片 的 tab, 这个人 近期 的 图片 和 视频 是 怎么样?

所以 就是说 你 要 是从 这个 角度 来看, 其实 A I 搜索 这个 事情 对比 传统 的 搜索引擎, 它 其实 差别 没有 那么 大。 传统 的 搜索引擎 它 没有 它 只是 说 它 没有 直接 全面 的 拥抱 transformer 而已。 但是 它的 这个 改造 是在 逐步 做 的对 吧?

Nix 你 举 的 这个 例子, 它是 一个 人力 在 编辑 的 来 形成 的 这样的 一个 搜索 结果 的 一个 过程。 就是 当我们 看到 一个 我 觉得 比如说 类似 谷歌 C E O 这样的 人, 或者 是 最近 的 某 一个 新闻人物。 这些 人物 的 非常 具体 的 变化, 它是 会 瞬间 反映 在 搜索引擎 的 结果 上面 的。 这个 其实 很好 理解。 这种 热点 的 新闻, 或者说 这种 主流 的 被 反复 搜索 过 的 这些 内容, 实际上 是因为 它 有有 非常 大 的 数据量。 它 有一个 完整 的 编辑 团队, 可以 通过 人工 的 方式 来 获得 更好 的 这种 体验。

他 有点 像是 当你 在 坐车 的 时候, 有一个 老司机 开着车 带 你走。 在 这条路 上 是你 每天 通行 的 路, 这条路 你是 可以 走 的 非常 顺 的。 而 你 刚才 提到 的 这个 搜索 的 场景, 其实 就是这样 一个 老司机 带 你走了 一条 老路 的 这种 状态。 我 觉得 在 这个 场景 下, 大大 模型 要 想 干 过 传统 的 搜索引擎 其实 是 蛮 难 的。 因为 它是 相当于 是 强 的 人力资本 的 服务 带来 的 这种 好的 这种 用户体验。

某 一些 场景 包括 一些 刚才 我们 提到, 其实 在 什么样 的 场景 下, 可能 大 模型 会 更好 用 呢? 就是 一些 不是 直接 给出 结果 的, 它 需要 有一个 内容 组织 的 过程 的那 类似 这样的 问题, 我 相信未来 的 大 模型 的 搜索引擎 会 给出 更好 的 解答。 像 我 儿子 现在 二三年 级 的 这种 状态, 他 会 问 出来 的 一些 问题, 我 觉得 大 模型 会给 更好 的 回答。 因为 大 模型 会 娓娓道来 的 帮你 组织 一些 内容, 让让 我 儿子 这样的 小朋友 他 也能 看得懂。 而 不是说 丢 出 几个 链接, 甚至 还是 广告 排 在 前面 的 那种, 然后 点进去 发现 不对, 这个 体验 上 我 觉得 会有 很大 的 区别。 但是 在 一些 我 觉得 常识 类 的 内容, 或者 是 一些 直接 只 给 的 答案 一个 fact 这种 事情, 尤其是 越越 热门 的, 越 主流 的, 可能 就是 仍然 是 现在 的 这种 传统 的 这种 搜索引擎 的 体验 会 更好。

确实 这样, 我在 谷歌 上 搜 谷歌 C E O 那年 出生 的, 确实 是 有 职业 答案。 但是 我 要是 搜 一个 冷门 歌手, 确实 就 没有 直接 答案 了。 对, 确实 这个 是一个 很大 的 问题。 所以 从 竞争 的 维度 上, 第一个 是 体验 上 的, 然后 第二个 是 A I 搜索 和 主流 搜索引擎 还是 有 区别。 就现在 现在 就是 主流 的 A I 搜索 显然 是一个 非常 小 众人 群 的 需求。 就是 这些 人 对 信息 是 有 挖掘 的 欲望 的那 大家 在 理解 这个 新的 搜索引擎 的 时候 和 传统 搜索引擎 的 时候, 也 不要 把 传统 搜索引擎 觉得 他 有 那么 的 就 弱, 对 吧?

除了 刚才 托马斯 提到 的 他们 人力资本, 可能 这种 标准化 的 信息 做 的 很好 之外。 我 觉得 还有 一个点 就是说 它 在 整个 商业 的 生态 上, 它 构建 的 是 比较 不错 的。 比如说 谷歌, 其实 它是 能够 不断 的 去。 优化 它的 算法, 让 一些 优质 的 网站 和 工具 获得 流量 的 倾斜 的那 这就是 为什么 我们 互联网 上 有一个 叫 站长 的 群体。 就是 他 做好 的 网站 和 工具, 谷歌 给他 广告, 他 能 赚 到 钱, 对 吧? 是 做 的 不好 的。 搜索引擎 把 流量 给 了 那些 莆田 医院, 对 吧? 如果你 是一个 在 互联网 提供 信息 的 人, 你 肯定 是在 这样的 生态 下, 你 肯定 是 更 愿意 为了 给 谷歌 提供 那个 信息 去 优化 你的 网站。 传统 就 叫 S E O, 这个 生态 也是 非常重要 的那 现在 A I 搜索 你说 这 商业模式 是 什么样 都 还 他 还 谈 不清楚, 那就 更 不要 提 围绕 它的 商业 生态 到底 是 怎么回事 了, 对 吧?

必应 刚刚 上线 它的 这个 A I 搜索 的 时候, 它的 流量 是 短期 有一个 明显 的 增幅。 但是 其实 现在 看起来, 它的 搜索引擎 的 份额 又 掉 回去 了。 应该 是 我们 从 我们 看到 最新 的 这个 数据, 它 应该 是从 这个 三点 几 掉 回 了 2.8。 而 谷歌 的 搜索引擎 的 这个 份额 同比 还在继续 上升。 目前 看 全球 已经 是 达到 了 92%。

这个 就 说明 大家 在 短暂 的 尝鲜 之后, 可能 还是 回到 了 他 更 习惯 的 在 搜索引擎 的 使用 方式 上面 来。 传统 的 搜索引擎 自己 其实 也有 大 模型 的 能力。 所以 我们 觉得 起码 谷歌 在 现在 暂时 不用 像 一年前 ChatGPT 刚 出来 的 时候 那么 担心 了。

那 今天 A I 搜索引擎 这个 事情 可能 还是, 虽然 我们 有点 唱衰 他的 意思, 但是 我 刚才 也 提到 就是说 还是 要 值得 从 另外一个 视角 来 观察 的。 就是 用户 搜索 是 为了 得到 网站 的 那个 信息 工具 和 服务, 对 吧? 所以 A I 搜索 它 不是 搜索引擎 的 迭代, 它是 一个 挂羊头卖狗肉 的 事情。 他用 搜索 的 这个 旧 概念, 然后 来 装 一个 新的 一个 事情, 叫做 它是 更多 A I 应用 的 综合 入口。 它的 未来 就是说 直接 变成 你的 那个 助理 agent 对 吧? 然后 我 来 挑选 应该 给你 提供 什么样 的 信息 工具 和 服务。 它 更 像是 说 用了 一个 大众 熟悉 的 概念 来来 go to marketing。

又 或者 换句话 来说, 就是 真正 让 谷歌, 让 百度 这些 搜索引擎 的 公司 担忧 的 不是 一个 A I 的 搜索引擎。 而是 可能 像 比尔盖茨 说 的, 也 可能 像 我们 之前 在 聊 A I 硬件 的 时候 聊到 的 可能 是 大家 真的 不再 用 搜索引擎 了, 不管 你是 A I 的 还是 不 A I 的, 我 有 A I agent 去 帮 我 搞定 一切, 对 吧? 我有我 的 A I 硬件 来 帮 我 解决 这个 搜索 的 过程。 那 这个 才是 我 觉得 可能 十几年 后, 搜索引擎 公司 真正 需要 面对 的 风险。 而 不是说 今天 在 他的 这个 赛道, 我 觉得 其他 的的 方式 想要 超越 它 其实 是 蛮 难 的, 但是 有可能 这个 赛道 都 不在 了。

就 相当于 一个 A P P 能 体现 你 所有的 需求。 吃穿住行 就 基本上 一个 A P P 就能 搞定, 而且 界面 非常 简洁, 没有 那么 多 的 花里胡哨 的 入口, 各种 对 这个。

其实 就是 A I 硬件 们 特别 期望 看到 的 一个 场景, 这 一个 A P P 就 装 在 一个 小小的 A I 硬件 里, 挂 在 脸上 或者 是 挂 在 胸前, 甚至 把 手机 都 革命 掉。 我们我们 可以 拭目以待, 看看 会不会 这么 快 发生。 但是 这个 确实 是 符合 我们 目前 看到 的 整个 A I 的 演进 的 路线图 的对。

我们 关于 A I 搜索 主要 的 一些 分析 和 态度 就是 挂 在这里 了。 其实 我们 不太 看好 A I 纯 做 搜索, 或者说 transformer 这样的 A I 来 纯 做 搜索引擎 这件 事情。 事实上 我们 也 不太 认为 OpenAI 会 去 直接 去做 A I 搜索 这样的 事情。 这里 我 觉得 也 说 一下, 就是 我们在 录制 前 我们 得到 的 信息 是 说 可能 open I 这次 发布会 的 重点, 其实 是 它的 成本 的 优化 的 一些 小 模型。 也就是说 能够 实现 这种 A I 助理 的 主动 通话, 就是 A I 助理 跟 你 更加 通畅 的 这种 语音 通话, 可能 这个 还是 它的 一个 重点 的 问题。 然后 我我我 相信 OpenAI 是 不会 直接 去做 搜索引擎 这件 事情 的。 确实 它 跟 传统 的 这个 搜索引擎 公司 差距 还是 比较 大对, 所以 这个 是我的 一个 希望 表达 清楚 的 一个 观点。

刚才 说 那么 多, 其实 还 会有 一个 更深 的 一个 问题。 这个 问题 不管 是 做 搜索 还是 做 任何 应用, 其实 我们 从 去年 就说 到 现在 就是 幻觉 问题, 或者 是 说 传统 的 深度 学习 的 世界 里面, 可能 会 把 它 叫做 可 解释性。 我想 问 一下 你们 两个, 就是说 除了 那个 搜索引擎 之外, 你们 现在 在 生活 当中, 你是 有什么 场景 愿意 跟 一些 企业 提供 的 对话机器人 去 真的 对话 的 吗? 比如说 真的 有人 让 你 跟 一个 智能 A I 客服 对话, 你们是 愿意 跟 他 聊天 的 吗?

我是 不愿意 的。 而且 我 其实 说实话, 大部分 的 这种 语音助理, 他 其实 并没有 完全 的 接入 大 模型。 它 更多 的 还是 在 做 基本 的 语义 识别, 然后 套用 一些 基础 的 这种 回复 的 模板 在在 工作。 这 里面 我 觉得 很大 的 可能性 就在于 对 幻觉 的 控制 的 难度, 可能 大家 就 都会 难以 避免。

如果 在 大大 模型 在 真实世界 中 应用 的 时候 出现 这种 问题。 很早 的 时候 大家 很 兴奋 的, 刚 开始 用 ChatGPT 的 时候, 就 闹 过 这样的 笑话。 就是 有一个 律师, 他用 这个 GPT 来 为 他的 这个 案子 做 一些 论据 的 准备。 但 结果 后面 他 发现 他 到 法庭上 拿出来 的 这些 论据 都是 不存在 的, 是 GPT 编出来 的那 在在 这个 相对 严肃 的 场景, 其实我 相信 是 更加 不能 接受 这种 幻觉 的 产生 的。 日常生活 中的 这些 应用 都会 受 这些 幻觉 的 困扰。 其实我 我 也很 好奇, 在 企业级 的 应用, 或者说 在 更加 严肃 的 一些 领域 里面, 到底 幻觉 这件 事情 要 如何 解决 呢?

我 觉得 可能 比较 高难度 的 是 那个 金融 行业, 我自己 写 的 第一个 深度 学习 的 算法。 当时 是 识别 信用卡 诈骗 的, 当时 我 跑 出来 98.5% 的 准确率, 我 当时 可 开心 了。 但是 我的老师 跟 我说 说 你知不知道 没有 被 识别 出来 的 1.5 的 那 部分人 会给 银行 造成 多大 的 损失, 这个 是 完全 不可 接受 的。 但是 事实上 像 这些 场景 里面, 我的 感觉 是 大家 就 更 不愿意 去 用 GPT 了。 是什么 客服 机器人, 什么 投顾 机器人, 反而 在 日常生活 当中 很 常见。 我 宁可 多点 几步 那个 软件 的 界面, 我 宁可 多 等 几分钟 去 喊 一 嗓子, 我要我要 人工 服务, 我也 不愿意 让 那个 A I 给我 去 吐 那个 数字。 毕竟 这个 是 跟 钱 相关 的, 看 损益 相关 的对 吧? 我 觉得 还是 比较 严肃 的 一个 事情。

可能 在 金融 领域, 这 98.5% 可能 不够, 甚至 你们 产品 经常 讲 的 999 99.9 可能 也 不够。 因为 金融 领域 是个 比较 严谨 的 行业, 包括 我们 银行 不 也 做客 服, 你 不能 一个 一个 客户 过来 咨询 我的, 比如 我的 贷款 情况, 你你你 一本 胡 一本 一本正经 的 胡说八道 跟 他说 了 一堆 是 吧? 这种 最后 只能 带来 什么? 带来 客诉, 不会 说 缓解 我们的 这种 客服 的 压力, 而是 会 增加 我们的 各种 的 客诉 的 数量。 所以 在 我们 领域 基本上 所有的 模型 上线 之前 都 有一个 标准 的 非常 严格 标准 的 评测。 而且 上线 之后 可能 还有 会有 设计, 比如 一道 防线、 二道 防线、 三道 防线 怎么 去? 如果如果 你 这个 模型 真的有 有问题, 兜底 策略 是什么? 对, 这 有 一整套 的 就是 银行 或者 是 金融 领域 有 一整套 的 这种 机制 去 保障 这个 事情。 这是 传统 模型, 在 大 模型 之后, 大 模型 的 幻觉 可能 跟 或者 是 这个 错误率 可能 跟 传统 模型 还 不一样。 就是 大 模型 它 出来 结果 就是你 一眼 是 看不出来 它是 有问题 的, 是 吧?

对。

装 的 可 像 了。 刚才 说 的, 你 像 波波 check 或者 cross the check 这个 结果 的 就是 成本 就 很高。 我 有 每个 问题 每个 结论 我 都要 去去去 切割, 我 然后 就 去 查, 去 我 去 我 去 翻, 然后 就 这种 对不对? 对, 而且 我也不知道 到底 这个 输出 这么 多 一个 问题 输出 很很 长 的 结果, 哪 一句话 是 错的, 我 完全 不知道。 所以说 就是 大 模型 在 金融 领域 大家 还是 比较 谨慎 的对, 就是 客服 先行, 然后 可能 营销 这些 可能 都是 就 往前走。 然后 真正 实际 到 在在 信贷 这块, 信贷 相关 这些 比如 授信 相关 的 东西, 我们 还是 比较 谨慎, 我们 还是 也是 一个 探索 的 过程。

国盛 最近 应该 是在 用 那个 大 模型 去 帮助 我们的 一些 制造业 的 一些 工厂, 他 去做 那个 贷款 的 授信 的 一些 工作, 对 吧? 对, 那你 能 讲一讲 说 你你你 怎么用 大 模型 去 帮 他们的 吗?

我们 先 讲讲 农村 这 一块, 我 金融 农村 应该 是 客 群 最大 的 一个 群体, 像 农村金融, 因为 我们 做 的 是 纯 信用贷款, 然后 农户 其实 能 抵押 东西 也 不多。 再 一个 就是 农户 这个 群体, 他他 特别 就 分散, 就 全国各地 都有 是 吧? 每个 省 而且 都在 和 里面, 他 就是你 要 怎么 去 获得 这个 信息, 然后 怎么 去 对他 做 一个 评估, 这 很难 的。 你 你 原来 你看 线下 其实 也有 传统 银行, 他们 有 很多 线下 的 那种 新 审 新人 新人 专员 和 新 审 经理, 他们 其实 也是 走访, 但是 其实 他们 也很 难 做出 了 到 村 到户, 去去 评估 这个 农户 的 到 0。 所以 我们 当时 讨论 就是 比如 对于 农民 来说, 他们 可能 最 核心 的 地 是什么? 是 他们的 地, 他 种 了 多少 地? 他的 地种 了 什么东西, 然后 这个 种 的 种植 的 这个 作物 的 价值? 就是 大概 估计 要 做 种 什么, 种 的 亩数, 然后 品类, 其实 就能 估 出来 它 一年 的 大概 产值 有 多少, 比如说 水稻、 小麦、 玉米, 然后 找到 经济作物 是 苹果、 梨 这种, 它 每年 大概 的 就是 这个 波动, 市场 波动, 包括 加上 这个, 其实 就是你 根据 这个 行情, 其实 能 测算 出来 它是 的 大概 的 收入。

对, 所以说 我们 怎么能 识别 它 种 了 什么什么, 然后 能能 知道 它的 面积。 其实 能 大概 就 估 出来 这个 人的 成本。 最 开始 就是说 用 遥感卫星, 然后 通过 卫星 去 看 这个 农户 的 面积 问题。

我们 之前 如果 要 用 高精度 卫星, 这个 成本 很高, 那个 价格 也很 贵, 所以 我们 只能 用 一些 比如 开源 的 这种 卫星 数据。 这种 开源 的 卫星 数据 大概是 个 什么 概念? 这个 分辨率 的 概念 就是 地上 10乘10米的 这个 区域, 大概 在 微信 上 是一个 像素点。

一个 像素点。

100平方米。 对。

是一个 像素。 当时 用 的 那个 精度。

那 根本 就 看不清楚。

但 好在 一个 问题 是什么? 就是说 我们 可能 识别 的 可能 就是 大概 种植, 可能 就是 五亩 或者 十亩 以上 的 这种 用户, 所以 他们 在 他们 那个 地 他们 那个 地, 包括 田, 在 卫星 上 还是 有 一定 区域 的对 对。

还是 能 用 像素点 量 出 它的 面积 来。

我们 根据 不同 的 种类 就 种植 种类, 然后 我们 通过 根据 他 在在 那个 遥感 图像 的 成像, 然后 我们 去做 图像 分割。 农户 只要 拿着 手机 在 地上 圈 一圈, 这个 地 是我的。 然后 我 就能 通过 识别 它是 什么 作物, 然后 我们 就能 大概 估 出 它的 这个 收成, 然后 就 能够 算出 这个 授信额度。 对, 就是 之前 做 的 这个。

所以 农民 是 通过 在 用 手机 来 标注 他的 这个 G P S 的 范围。 然后 你们 再 比照 这个 卫星 图 的 面积, 去 估算 它的 他的 在 他 未来 的 他他 能够 抵押 的 贷款 的 这个 数量, 对 吗? 对。

这 里面 全 是 低 精度 的 东西, 因为我 是 做 智能 硬件, 那个 G P S 的 精度 其实 很低 的。 然后 再加上 说 你 那个 卫星 图 看到 的 那个那个 图片 的 精度 也很 低。

对 吧? 他他 是 这样, 就是 我们会 把 那个 地图 展现 在 支付宝 那个 页面 上, 然后 农户 其实 只要 在 这边 去 圈 一下, 哪个 地 是你的, 你 圈 一下。

我们 就 大概 我 还我 还 以为 要 走 一圈, 所以 他 G P S 对 圈 一下。

地图 上用 手 点 圈 一下, 就是 选 几个, 每个 点对 OK 对。

明白。 所以 这个 阶段 主要 用到 的 是对 这个 图形 的 这种。

其实 对 遥感 器 的 一个 分割 能力, 识别 能力。 其实 这个 时候 其实 就说 到了 模型 其实 也有 误杀 的 能力, 就是 错误率。 你看 我们 比如 这 一整块, 我们 发现 我们 识别 出来 可能 就是 某。 因为 我们的 按 相同点 去 识别, 去 识别 他们是 什么 类别。 然后 我们 发现 这个 整块 整个 整 大块 可能 都是 一个 水稻, 然后 发现 中间 某 一块 可能 识别 成 玉米 了, 然后 我们 可能 就 基于 很多 外部 的 一些 校正 方式, 就是 不可能 是 中间 外围 都是 水稻, 中间 开始 玉 那个 是一个 玉米。 那 可能 就是说 我们 可能 中间 识别 错了, 然后 把 它 校 校正 过来。

还有 会 用 一些 其他 方式 去 校正, 比如 打比方 就是 我们 统计 的 大概 种 水稻、 种 小麦、 种玉米 的 哪些 省市 是 大户。 就是你 比如 可能 在 北方 可能 种种 水稻 的 比较 少, 然后 可能 种 小麦 和 玉米 多一点, 然后 不同 的 季节 它 可能 种 的 东西 不一样, 是 吧? 对, 然后 就 通过 这些, 还有 一些 期货 这些 问题, 就是 有 这个 就是 这个 时候 田里 应该 就是 没有 东西, 然后 我们 识别 出来 了, 可能 就是 错了。 对, 都 已经 收割 完了。 然后 有 这个 在 这个 省 压根 就 没有 种种 玉米 的, 然后 你看 南方 就 没有 种玉米 的, 然后 我们 发现 识别 出来 是 域名, 可能 这个 地方 就是 有问题, 然后 从 左边 通过 这种 交叉 的 这种 结论, 拿 很多 数据 就 不同。 不仅 是 遥感 数, 遥感 指 这个 算法 一部分, 其实 还 拿了 很多 当地, 就是 我们 跟 一些 当地 的 县域 合作。 他们 当地 的 一些 土壤, 然后 天然气, 然后 一些 种植 的 传统 的 类别, 然后 大概 的 从 整个 现在 种植 面积 这种 数据, 我们会 做 一些 交叉 验证 来 修正 我们的 算法。

我 感觉 这个 才是 这个 方案 里 最最 精华 的。 就是 你们 通过 了 多种 方式, 比如说 识别 一些, 就 把 一些 错误 的 识别 排除 掉, 以及 接近 了 很多 当地 的 农业 数据, 然后 把 它的 准确率 和 误杀 率 都都 能够 控制 在 一个 可控 的 一个 范围, 对 吧? 明白 他 对比 的 解决方案 就是 过往 传统 的 这种 可能 是什么 农业 农村 银行 的 或者说 信用社 的 业务员, 他 要 去 直接去 跑。

对, 然后 我 还有一个 疑问, 但是 农作物 变成 收益 还有 两个 条件, 一个 是 说 正确 的 合适 的 天气 和 气候, 对 吧? 就是你 要 你 要 你 你 不能 到 收割 之前, 你 还有什么 气候 的 大 的 气候 的 变化 导致 农作物 的 这个 问题。 第二 那是 农作物 它 会有 一个 市场行情 价格? 因为 市场行情 价格 的 波动 才是 决定 了 农民 今年 是 亏 钱 还是 赚钱, 以及 他 对 贷款 偿还 能力 的 一个 决定性 的 点。 这 两个 问题 你们是 怎么 解决 的? 就是 天气 和 那个 行情 问题。

行情 的 问题 叫 主粮 可能 就 比较稳定。 国家 有 一些 有些 政策 兜底 的, 政策 波动 可能 大 了。 就是 金座 像 苹果、 梨、 橘子 这种 可能 每年 波动 的 不一样, 价格 比较 波动 比较 大。 所以 我们 其实 是 有些 知识, 这就是 区域 的 种植 知识 的 知识库 构建。 我们 把 这些 每个 郑 每个 区域, 比如 苹果 像 延安, 是啊, 延安 是 一个地方, 比如 郑州 大埔, 然后 陕北 的, 然后 再就是 山东 这边 的对 这些 我们会 大概 把 这些 每年 的 苹果 的 波动 价格, 我们 都会 统计 出来, 这个 都是 我们 一个 参照。

第二个 就是 定期 把 这些 识别 遍, 然后 我们会 定期 把 这些 天气 的 情况 会 带上去。 对, 因为 OK, 因为 在 这个 不同, 就是你 像 不同 作物 的 不同 周期, 它 所在 摇杆 上 返回 的 那个 信号 是 包括 成像 都是 不一样的。 从 这个 纯 就 开始 开花, 花期 到 最后 结果期 都 不一样。 所以 我们是 一个 全 周期 的 去去 按照 这个 去 跑 这个 结果 的, 然后 去 会对 会 结合 当时 的 当地 的 天气情况 去 做做 对比 的。

我 举 个 例子, 应该 是在 222年 的 时候, 苹果 上市 应该 是 九月底 十月初。 就 国庆 那个 时候 就 开始 陆陆续续 苹果 开始 采摘 了。 因为 国庆 前 的 一周 走 延安 下面 好几个 县 的 种 苹果 的 核心 区域, 可能 就 遭受 了 冰雹, 冰雹 打 遭 了, 遭 了 冰雹 之后 有什么 问题?

遭 了 冰雹 之后, 这个 苹果 上, 因为 苹果 虽然 被套 了 袋, 然后 遭 了 冰雹 之后, 这个 苹果 的 这个 会 就 很多 点, 品相 就 不好看 了, 就 砸 了 很多 点, 基本上 这个 苹果 价格 就 可能 卖不出去 了。 就是我 估计 这些 苹果 被 冰雹 砸 过 的 苹果 之后 被 可能 就 五毛钱 或者 四 毛钱 一斤, 被被 果果 果汁厂 收购。 O K O K 对, 当时 我们是 观察 到 的 这种 状况 的, 我们 及时 开始 就 对 那 批 区域 的 这些 作物 开始, 我们 就 开始 做 一些 免息 的 政策, 延期 还款 这些 动作, 然后 他们 把 这个 过程 坚持 过去。 对。

听起来 这项 工作 可能 是在 因为你 刚才 提到 一个 时间, 2022年 左右, 可能 是在 transformer 的这 这个 大 模型 的 流行 开 之前。 然后 的话 整体 的 构建 方式 可能 是一个 很 复杂 的 一个 对 一个 一个 整体 的 A I 解决方案。 它 既有 C V 的, 也有 也有 A O P 自然语言 处理 的。 然后 到了 后面 甚至 还有 甚至 还有 知识 图谱 的 一些 东西。

那 接下来 我们 就要 聊 一 聊 在 这 之后, 当 这个 ChatGPT 处 出来 了, GPT3.5GPT4 出来 之后, 我们 开始 把 这样的 大 模型 大 语言 模型 应用 到 相同 的 这种 金融 的 领域, 或者 农业, 或者 工业 的 领域 里面 的 之后, 我们在 实际 的 应用 上 有 什么样 的 变化? 我们 我 觉得 我们 可以 开始 聊 这个 第二个 话题。

好, 我 先 说 一下 我 理解 的 业务 背景。 就是 制造业 的 可能 跟 农业 它 有一个 相似点, 就是 它 其实 它 其实 一些 中小型 的 制造业 都是 很 分散 的。 以及 你 制造业 制造 出来 的 产品, 很多 产品 跟 那个 农产品 的 流通 也是 类似的。 就是 一些 中小型 的 一些 制造厂, 他 可能 做 的 就是 一个 皮筋, 就是 一个 小小 杯子 什么的 东西, 就像 农民 的 那个 蔬菜 一样。 他 并不知道 这个 皮筋 和 小 杯子 最终 是 被 卖 向 了 什么样 的 行业, 什么样 的 市场, 被 什么样 的 人 买 走了。

这个 用 一个 相同 的 比喻, 就是 刚才 我们 聊到 的 搜索引擎, 它 其实 就像 不是 不 那么 有名 的 一些 不太 知名 的 小的 这种 非非 流行 的 歌手。 我们 要 唱 他的 信息 的 时候, 用 传统 的 方式 就 变得 很 困难。 那 其实 在在 这个 借贷 这个 领域 也是 一样的, 大 的 这种 大型 的 机构 对 吧? 它 有着 足够 的 关注度, 有着 足够 详尽 的 财报 跟 信息。 这些 企业 它 相对 容易 拿到 更好 的 贷款。 但是 反过来, 这种 小型 的, 不管 是 刚才 讲 的 这种, 惠农 计划 里 的 这些 农户, 还是 我们 现在 讲 的 这些 小型企业, 它 可能 都 面临 同样 的 难点, 就是 没有 足够 多 的 数据 去 支撑 它。 来 带 这么 多 的 钱。

在 我们 国家 这种 中小型 制造业 比较发达。 江浙沪 他们 原来 就有 一种 生态, 就是 依靠 熟人 关系, 甚至 是 依靠 着 什么 家族 关系 的 背书。 就是我 认识 你 老弟, 我 认识 你 表哥, 我 认识 你 叔叔, 你 不要 随便 跑路。 依靠 这种 关系, 有 一些 民间 的 这种 借贷, 那那 这个 确实 是, 正规 的 金融业务, 就 很难 去 覆盖 到。 郭 山, 你们 应该 是 最近 就 开, 就在 用 所谓 的 在 former 爆火 之后, 用 transformer 为 核心 的 架构 来去 解决 这些 问题。

对 吧? 对 我们 一个 很 典型 的 客户, 他 这 叫 这家 客户 叫 浙江 陈达, 他是 一家 什么 生产 什么的 生产 高温 尼龙 材料 的 企业。 一 想 这个 高温 尼龙 材料 企业, 可能 你 跟 这种 大企业 大 品牌 可能 根本 就是 联系 不到 一块。 对他 日常 就是这样, 基本上 需要 大量 的 现金 去 买 原材料, 投入 生产。 但是 他的 客户 回款 周期 是 三个月 左右, 所以 他 那个 资金周转 周转 是对 这个 资金 的 需求 比较 大, 所以 他他 去 银行 申请 信贷 服务, 他 需要 什么 抵押 是 吧? 抵押贷款, 而且 这个 还需要 一个 很长 的 审批 周期。

我们 网商 银行 发布 的 那个 叫 什么 供应链 金融, 这个 就 大雁 在 我们 这个 是在 我们 没有 这 我们 大部分 应用 之前 的, 就是 可能 陈达 这个 企业 可能 在 银行 风 控系统, 它 就是 一个 很小 的 一个 非常 普通 的 一个 小微 企业。 他们的 工商 信息 可能 就 显示 他们 从事 什么 机械 制造厂, 就是 年销售额 可能 大概 1000万左右。 但是 他 具体 做 什么的 产品 在哪儿? 产品 之后 在 用到 什么什么 领域, 什么什么 链条 上 不知道, 这个 行业 好不好 也 不知道。 对。 然后 这个 经营 这个 家 企业经营 的 情况 好不好 也 不知道 是 吧。

那 像 这样的 一个 企业, 在 过去 的 旧 系统 里面, 他们 能 贷 到 多少钱?

好吧, 他 能 抵押 房产, 他们 有 能 抵押 什么, 大家 去 评估 他 能 贷 多少钱, 或者 是 拿 他们的 这个 年销售额 可能 乘 一个 比例 系数 可能 但是 这种 就 非常少。

现在 我们 引入 了 这种 大 模型 之后, 我们是 如何 去去 做对 他 做 一个 这种 风险 评估 的 呢?

我们我们 现在 就是 在在 这个 之前, 他 其实 连 陈达 自己 都 不知道 他 这个 东西, 他 这个 产品 生 生产 生产 的 产品 之后, 一层层 的 做 流转, 做 到底 做 最终 到底 用到 哪个 产品 上。 我们 通过 我们 这套 大雁 系统 之后, 其实 它是 被 我们 我们 那个 大 模型 的 大雁 系统 看到 的。 我们 发现 陈达 生产 的 这个 尼龙 的 材料, 最后 经过 层层 加工 装配 以后, 最终 去了 哪儿? 去 的 比亚迪 汽车、 华为 手机 的 绝缘层。 而且 我们 也 发现 陈达 这个 企业 是 位于 什么 浙江 嘉兴 平湖, 而且 是 浙江 四大 新材料 基地 之一。 所以 他们 这个 地方 拥有 很 完善 的 产业链 生态 和 软硬 材料 优势。 我们 还 发现 陈达 这个 企业 还有 12张专利, 而且 是 还是 什么 浙江省 高新 企业 潜力股。

对, 而且 他们的 产品 主要是 尼龙 产品, 他们 品质 好, 价格 好。 所以 在 我们 这个 视角 下, 你看 就 这 上面 这些 信息, 我们 发现 陈达 企业 应该 是 有 优质 的 小微 企业。 所以 他 到时候 来 我们 这儿 时候, 我们我们 系统 公共 系统 一看, 可以 给他 200万额度, 不需要 抵押。 就是 你们 在 支付宝 里 随机 搜 完 是 吧, 我们 一天 就 到账 了。

我想 问 一下, 这 里面 我 可能 能 理解 的 是, 比如说 它的 这个 商标, 它的 这个 专利, 以及 刚才 最后 提到 的 它的 这个 高新 企业 的 认证, 这个 应该 是 比较 容易 得到 的 信息。 那 它 这 里面 最 核心 的 部分 就是 它的 产品 通过 层层 的 转包, 最后 卖给 的 是 比亚迪 和 华为。 那 这件 事情 你们是 怎么 通过 大 模型 来来 抓 到 的, 或者 怎么怎么 去 了解到 的 这些 信息?

我 想知道 一下, 就是说 你你你 的 输入 的 信息 都是 哪些? 就是说 可能 原来 你是 一些 工商 信息, 但 确实 如果你在 那个 天眼 查 上 查过 其他 公司, 你 就会 知道 这方面 的 信息 其实 非常 有限。 就是 在 工商 那个地方 登记 的, 他是 输入 的 一些 信息, 然后 它是 怎么样 去 识别 它的?

第一个 就是 我们会 对于 每个 行业, 我们会 比如 汽车 产业链, 会 基于 我们 现在 已有 的 这种 内部 的 数据。 比如 交易 数据, 然后 流水 数据, 然后 我们会 抽取 高 置信 的 上下游 关系。 根据 他 上游 关系 会 把 一个 链条 的 初步 流程 建 起来。 比如 汽车 汽车 整车, 它的 上游 有什么? 有 变速器 总成、 汽车 检修 服务, 然后 还有 钢铁 制造。 初始 阶段 之后, 我们 基于 我们的 大 模型 推理 能力, 然后 图图 推理, 然后 根据 各种 关系 的 数据, 我们 把 这些 链条 进行 扩充。

就要 把 产业链 往 上下游 扩充。 比如 我们 汽车 整 汽车 的 整整 车 我们 就 扩张 往下走? 有 刚才 说 的 变速器 总成, 我们 还 可以 扩张 钢铁 滞 紧固 固件, 然后 还有什么 机动车 零部件 及 配件, 我 甚至 还有 再 往 它的 上游, 还有什么 机动车 的 制动 摩擦片, 机动车 的 缓冲器, 扩充 比较丰富。 扩充 完 之后, 因为 你不知道 这个 校验 对不对。

通过 我们的 这种 大 模型 能力, 我们 设计 各种 prom 的 设置, 然后 让 大 模型 去去 判断 大家 以后 是不是 存在 这种 上下 关系 的。 其实 在 这个 之前, 这个 大 模型 其实 是 就是 被 我 我们 其实 已经 做了 领域 的 训练。 我们 其实 有 很 收集 了 很多 像 研 报 的 数据, 然后 一些 公司 的 这些 数据, 经营 数据, 然后 把 这些 数据 注入 到大 模型 之后, 其实 对 这个 数据 的对 这个 行业 是 有 一些 领域 数据 的 知识 知 知识 生产 的 能力 的。 所以 他 会 判断 这些 节点 关系 的 是不是 准确 的对。

其实 这里 这 一段 其实 大家 脑海里 可以 有一个 图片, 就是 大家 经常 在 看 研 报 的 时候, 会有 一个 行业 上下游 关系 图, 对 吧? 所以 以往 的 研 报 都 金融机构 的 实习生 画 出来 的。 所以 郭盛 你的 意思 就是说 你们 其实 是 针对 很多 行业 是用 A I 去 画的 那个 关系 图, 就像 transformer 去 画画 的 那个 关系 图, 这是 第一步。 然后 第二步, 你们 还 对 transformer 的 关系 图 还有一个 求证 的 一个 过程。 就是说 这家 企业 的 上下游, 这家 企业 的 在 的 这个 位置, 它的 上下游 关系 有一个 叫做 什么, 有一个 验证 的 过程。

还 不到 没有 到 齐, 还 只是 说 这个 行业 的 这个 链 这个 产业链 链条 上下游 是不是 这个 关系。 对, 我们 还没有 到 企业。 对。

明白, 就 只是 把 那个 上下游 关系 要 给 它 判断 清楚。 就 好像 说 一家 公司 说 可能 要 给 智能手机 提供 某某 个 零部件, 他 到底 只是 基于 技术 原理, 它 能够 给 智能手机 用, 还是 说 智能手机 确实 是 有 有有 实打实 的 业务 往来, 对 吧?

这是 两码事 情。 对我 想 问 一下, 因为 刚才 我们 其实 聊到 大 模型 在 应用 里面 最大 的 这个 难点 在于 幻觉 的 问题。 那 你们 在 使用 的 过程中 是 如何 去 解决 这个 问题?

这个 模型 的 好坏 其实 有一个 标准 的 评测 集 就是 幻觉。 就是 因为 我们会 把 它 限制 到 一定 范围内, 我们 去 构建 这个 行业 的 这个 专家 知识 的 评测 集, 就 看到 我们的 模型 输出 是不是 能 达到 一个 标准。 第二个 我们会 做了 很多 的 事实 类 数据 和 生成 类 数据 做了 一个 交叉 验证。 对 就是 我们 会有 一些 事实 数据 去去去 cos check。 这个 东西 叫 我们 叫 dop check, 就 判断 我们 这个 职业生涯 的 数据 关系 的 对不对。 然后 第三个 就是 我们 还有 一些 行业 专家, 我们 专家 会 在 最终 在 check 这个 链条 是不是 有问题 的。

另外 我 还 比 还很 好奇, 咱们 现在 这个 模型 是一个 多少 亿 参数 的 大 模型?

就是 内部 其实 根据 不同 的 场景, 我们是 有 大 模型 也有 小 模型。 我们的 主模型 是 基于 蚂蚁 百灵 的 这个 基座 为基础。 因为 我们 这个 银行 有 个 特殊要求, 就是 它 被 严 监管, 所以 它 网上 就是 网上 的 银行 的 数据 是 不能 到 蚂蚁 集团 的。 所以 蚂蚁 集团 他 他 也没有 办法 拿把 网上 的 数据 拿到 做 增量 预 训练。 所以 我们 网商 银行 只能 拿到 蚂蚁 的 基座 之后, 我们在 这个 基础 上去 做 增量 与 训练, 然后 再 把 做做 我们的 领域 S F T 在 做 强化 学习, 我们是 走了 这套 流程 的。

不同 的 场景 可能 基于 有些, 比如 简单 的 信息 抽取, 可能 就 势必 我 就 搞定 了。 但是 有 对于 生成 这种 模型 可能 更大, 像 同一 的 70B, 我们 自己的 我们 自己 有 65B 的 模型, 可能 效果 更好 一点。 对 而且 这个 模型 都是 基本上 所有 模型 到 不管 是 蚂蚁 的 模型 还是 一些 开源 的 模型 进来 之后 到 网上 到 网上银行 之后 都要 做 领域 的 预 训练。 然后 在 做 领域 的 S F T 微调。

在 做 强化 学习。 所以 这件 事情 其实 就是 在 应该 是 GPT3.5 之后 发生 的 事情, 对 吧? 也就是 最近 一两年 刚刚 上线 的。

最新 的 就是 去年 到 今年 这一 这 这 一波 出来 的。

明白。 在 这个 过程中, 如果 从 数据 的 维度 看, 我们在 上线 了 这样的 一个 大 模型 之后, 跟 之前 相比, 我们在 效率 上 或者 是在 这种 皮带 的 这种 金额 上 有没有 一个 显著 的 一个 提升, 或者 在 人力 的 节省 节 成本 的 节省 上。

就是 原来 我们 可能 就 构建 面的 这个 准确率, 包括 信息 抽取, 知识 抽取 准确率 只有 85% 左右, 现在 基本上 到 95% 以上 了。 对。 第二个 就是 这个 效率, 就 原来 构建 一个 链条, 它 我们 需要 做 很多 数据 加工 逻辑, 然后 跟 专家 check, 然后 可能 就 至少 三个月。 现在 基本上 是 一周 就能 把 一个 完整 的 链条 建 起来。

对 呃, 那你 你 说完 了 产业链 怎么 构建 的, 但是 产业链 里 具体 的 那个 企业, 你 还是 要 什么 验证 它 是否 优质, 对 吧? 那大 模型 在 这 过程 当中 是 怎么 工作?

你看 我 现在 我们 不是 有有 个 链条, 我 接着 刚才 那个 汽车 产业链。 可能 上游 是 零部件, 中游 是 生产 批发, 然后 下游 是 销售服务。 我们 现在 其 体系 内 有 很多 数据, 小小 微 的 企业 第一个 我们 识别 他们 小微 企业 的 主营 产品 是什么? 然后 它 识别 主营 产品 之后, 跟 我们 这个 链条 的 上游、 中游、 下游 这个 链条 上 链路 去 挂载。 比如 你的 主体 产品 是 不锈钢 的 某某 一个 配件, 那么 可能 就 挂到 上游 了。 我们 现在 有 很多 工商 数据, 然后 商标 资质 这些 数据 很多, 还有 公司 官 那个 官网 的 数据, 它 就是 这种 识别 之后, 我们 就 把 这些 小微 企业 主营 产品 识别 出来。 然后 根据 它 主营 产品 是 属于 哪一个 链条 的 哪个 节点, 然后 就 把 这些 企业 就 挂到 那个 节点 上去 了。

但是 挂到 节点 之后, 你 还是 需要 去 判断, 这家 公司 具体 的 经营期 经营 状况, 就是 他的 那个 或者 偿还 能力。 就 只要 提到 贷款 的 还是 对 这个 东西 我是 怎么 判断 的 呢?

第一个 就是 我们 它的 整个 链条 的 生产 链路。 第二个 就是 还要 根据 它的 有些 好的 企业 跌, 它的 这个 资质 是 可以 传导 的。 上下游 传导。

就是 好的 客户 就能 为 好的 供应商 背书, 对 吧? 大家 是 有 是 互相 的 这种 关系 的。

就是 刚才 比亚迪 跟 华为 的 故事。

对, 第三个 就是 我们 既然 能 看清楚 他在 哪个 整个 产业链 链条, 然后 我也 知道 它 属于 什么 行业。 那么 我们 就 能够 从 各种 研 报 里面 去 挖掘。 基于 这个 行业 里面 应该 是从 哪些 维度 特征 去 评估 这个 企业 好坏 的。 有 特征 维度。

好, 我 理解 了。 比如说 如果 突然 是 制造业 有有 的 品类, 它是 侧重于 说 你 要有 一定 的 技术创新, 那就 看 它的 专利。 但是 有的 品类 经 考核 的 是你的 经营 效率, 那 可能 就是 看 它的 一些 过往 的 一些, 比如说 一些 发票 的 一些 情况 anyway 你你你 现在 找到 一些 数据 去 从 侧面 去 反映 这家 公司 的 运营 状况, 是不是 符合 这个 产业链 的 一个 竞争力 的 特征。

是 吧? 对, 比如 有的 链条 就是 他 要 他 看 他的 研发 能力, 那 研发 能力 我们 可能 看 这个 企业 的 研发 投入, 这个 专利 数, 然后 研发 人员 的 占 比。 然后 根据 这个 定制 这些 特征, 然后 我们 去 找 对应 的 数据。

然后 去 评估 理解。 比如说 如果 是 运 制造业, 如果 是 偏 运营 的那 可能 是看 他的 整个 交交 社保 的 每年 的 人数, 看 他 核心 管理层 的 在职 时间, 这个 确实 这些 数据 还 蛮 有效 的。

这个 过程 其实 也是 用 大 模型 完成 的, 就 大 模型 去去 对 研 报 加工。 我们的 每个 行业 就 这么 多 研 报 其实 说 他 每个 行业 我们 就 把 这个 行业 应该 从 哪些 维度 去 看 这个 经营 好坏, 就 经营 稳定性, 然后 网站 就是 这种 维度 去 看 分布。 反正 一 分布 然后 大鹏 一起 一步一步 下探。 这些 维度 应该 从 哪些 角度, 就是 认知 的 角度 去去 出发, 它 过程中 也会 产生 幻觉。 最后 是要 通过 我们 内内 五 数据 校验 它的 风险 区分度。

最终 其实 我们是 有 个 基础 的 评测 的。 我们 要 通过 内部 有些 已有 的 这些 数据 去 评测 我们 现在 这个 特征 是不是 有 是不是 一个 好的 特征。 当我们 产生 这个 认知 角度 没有用, 我们 体内 的 数据 加工, 那 可能 这个 特征 这个 认知 可能 就是 不能 被 利用。 如果如果 这个 特征 能够 被 体内 数据 加工, 但是 加工 出来 这个 数据 的 稳定性, 从 稳 特征 的 稳定性 特征 的 分布 看 是 不 达标 的。 没有 达到 我们的 机制 评测 标准 的那 可能 这个 认知 可能 是 有问题 的对, 所以 我们是 有 个 标准, 就是 有 个 评测 级, 就 判断 这个 认知 是 加工 认知 是不是 有没有 用。 对你 你说的。

那个 评测 是不是 就是 银行 的 风 控 系统。

就是 风 控系统 特征 的 分布 稳定性 一个 严格 的 评测 标准。

明白。 然后 我 最后一个 问题, 关于 这方面, 就是 因为你 刚才 提到 的 类似 很多 概念 就是 图 抽取, 关系 链 抽取。 这个 其实 是 咋 说 呢? 就是 transfer 爆火 之前, 这 玩意儿 叫 知识 图谱。 所以 其实我 我想要 了解 一下, 就是说 对比 过往 的 所谓 的 知识 图谱 这种 系统, 它的 整个 的 系统 的 工作效率、 工作质量, 以及 对 你们 行业 的 可用性 这些 事情 上, 它 有 本质 的 区别 吗?

我 觉得 本质区别 就是 大部分 人 具有 超强 的 通用 语义 的 理解能力。 然后 再 结合 知识 图谱 的 可 解释性, 就 形成 一道 叫 我们 叫 K G 加 L M 的 这种 相互 协同。 这种 可能 是 以前 这种 方案 没有了。

唯一 的 理解 就是我 给 大家 描述 一下, 就是 传统 的 知识 图谱 是 怎么回事。 就 传统 的 知识 图谱, 你 可能 看到 的 一个 情况 就是 比如说 你 到 天眼 查 里面 去 看 一些 公司 的 关系, 它 有 非常 确定性 的 关系。 就是 哪家 公司 和 哪家 公司, 它是 上下游 哪家 公司, 哪家 公司 他是 可能 有 这种 什么 同样 的 老板, 就这样 的 关系。 但是 这些 这样的 一些 关系, 它是 需要 依靠 一些 非常 稳定 的 一些 数据库, 或者说 甚至 一些 人工 的 标注, 对 吧? 甚至 是 一些 人工 的 标注, 它 才能 实现 做出来 的。

所以 郭盛 你的 意思 就是说 他 其实 和 过往 的 知识 图谱 它 不是 对立 的。 它 就是说 它是 基于 知识 图谱, 它 产生 了 很多 推理 的 行为 和 很多 判断 的 一些 逻辑 在 里面。 但 在 过往 我们 可能 能够 基于 类似 天眼 查 这样的 知识 突破, 我们 只能 知道 不同 公司 的 股权 关系。 但是 现在 的话, 我们 把 这些 关系 结合 这个 公司 在 产业链 里 的 位置, 再 结合 我们 一些 对他 竞争 的 一些 判断 之后, 我们 把 它 转化成 了 一个 这家 公司 可能 在 金融 方面 的 一个 偿还 能力, 或者 是 一些 现金流 能力。 我们 把 它 偿还 成 我们 把 它 转化成 了 这些 指标。

我可以 这么 理解 吗? 就是 像 说 弹幕 核心 超强 的 通用 理解能力。 它 将 能够 把 你 不同 的 数据源 的 信息 进行 融合, 进行 加工, 然后 产出 新的 指标。 这 指标 最后 能 用到 我们 对应 的 风 控 上去。

因为 听起来 这个 大 语言 模型 的 应用, 其实 带来 了 很高 的 效率 上 的 提升。 那 回到 一个 灵 灵魂 拷问, 就是 这样的 提升 像 效率 的 提升 最终 有没有 取代 掉 一些 工作岗位? 过去 可能 我们 需要 很多 这样的, 比如说 核查员 或者 是 就 某某某 一个 岗位。 它 是不是 因为 我们 强化 了 这样的 效率 之后, 它 可以 后 也许 会 逐渐 消失下去。

我 觉得 应该 不会 就是 这个 再 好的 结果, 再 好的 效率, 它 其实 是在 人的 指导 下去 做 去 工作 的。 对他 需要 人的 参与。 你 人 制定 目标, 然后 制定 路径, 然后 让 他 去 实行。 他 现在没有 办法 做到 自主 的 去去 分配 规划 路线, 然后 去 实现目标, 这是 第一个。 第二, 准确率 变 高了, 但是 这个 过程 最后 还是 要 需要 去 人工 去去 做一套 标准 的 核验 体系, 去 验证 你的 这个 结论 是不是 准确 的。 在 解放 人, 就是 一些 人 以前 做 一些 复杂性, 就是说 重复性 的 工作 被 释放出来 了。 然后 人 可以 参与 更高 的 认知 的 是 认知 的 挖掘, 还有 一些 更高 的 这种 流程 的 设计 上去 了。

因为 之前 有一个 说法 说 这个 大 模型 它 其实 帮 我们 完成 了 脑力劳动, 然后 变成 说 我们 现在 只剩下 未来 的 人类 就是 去 干干 体力劳动 了。 但 我 觉得 我 今天 听 完 郭 博士 的 讲讲 法 讲法, 其实我 大概 有一个 感觉 就是 比如说 过去 我们 所有人 都是 大部分 人都 是 体力劳动, 对 吧? 那 这个 时候 机械化、 自动化 实际上 是 让 体力劳动 的 大部分 蛮力 的 部分 可以 由 机器 来完成, 而 人类 变成 开 收 开 这个 拖拉机 的? 控制 这个 挖掘机 的 人 不用 亲自 拿 锄头 去 锄地 了, 它的 效率 提升 了。 同时 它 在 这个 体力劳动 的 这个 金字塔 里面, 他他他 在 做 更有 价值 的 那个 部分 的 事情。

今天 的 这个 大 模型 听 下来 它 也是 同样 的 把 一些 脑力劳动 里面, 我们 认为 比较 dirty work 的 部分 被 拆解 掉了。 今天 我们 很高兴 的 看到 了 一个 在 工业 领域 里面 实际 落地 的 带来 了 效率 提升 的 这样的 一个 大 模型 的 案例。 让 我们 更加 全面 的 相信 一个 相对 美好的 未来, 就是 我们我们 这个 诗 与 远方 还 留给 人类 的 这个 辛苦 活。 数据分析 就是 交给 大 模型 来完成。

这部分 我 最后 问 一下 郭 博士, 你 完成 了 在 农业 和 工业 服务 他们的 一个 落地。 我想 问 一下 你, 你 觉得 在 这 中间 最最 有效 的 一些 方法 或者 是 技巧 是什么? 你 能 给 个 1到2条 建议 吗? 对, 因为 我们 有的 听 友 确实 就是 从事 相关 的 工作 的。

第一个 就是 现在 就是 大 模型, 现在 就是 开源 的 闭源 都 很多。 各家 都说 现在 自己 大 模型 的 效果 就是 非常 好。 对, 是 那 就是 业界 领先, 然后 也 给 了 一些 很多 评测 的 结果, 但 从 评测 的 结果 来看, 大 模型 都 效果 都 很好。 但是 实际上 用到 自己 业务 上 发现 不行。 对对对, 我们 也 遇到 这种 问题, 就 发现 普遍 可能 想 达到 像 G P4 这种 效果 的 模型 还是 非常少 的。 那么 我在这 过程中 怎么怎么 去 判别 就是我 我们 哪些 模型 能 适合 自己, 哪些 模型 效果 还是 要 针对 自己, 而 不是 看 一些 通用 的 评测。 企业 还要 结合 自己的 业务 场景 里面, 我们的 场景, 比如 要 解决 什么 问题, 它是 一个 复杂 指令 的 跟随 问题, 还是 一个 成本 推理 的 能力 能力 的 问题。 所以 要 根据 自己的 场景, 然后 去 选 这个 不同 的 模型, 然后 去 建立 对应 的 评测 标准, 然后 去 选择 适合 自己的 模型 去做 这 做 这件 事情。

第二个 就是我 个人 觉得 就是现在 我们 实际 场景 中, 也 不是说 模型 越 大越 好。 如果 小 模型 用 的 好 的话, 其实 也能 能 达到 意想不到 的 效果。 你 比如 现在 很多 其实 就是 大 模型 加。 决策 就 加 小 模型 的 这种 逻辑。 就是我 大 模型 做 一些 比较复杂 的 逻辑, 然后 小 模型 做做 一些 简单 的 简 简单 的 事情。

大 模型 和 小 模型 结合起来, 其实 也 能够 快速 的 去 把 这个 场景 的 方案 做出来。 这种 好处 就是 它 其实 就是 能够 因为 毕竟 大 模型 的 更 大比 上 你 像 前文 骑士 B 这种 部署 这种 模 成本 还是 很高 的。 包括 你 本地化 的 应用, 不 本地化 的 这种 S F B 其实 成本 都 很高。 但是 你 像你 一个 小的 模型, 像 7B的 10B13B 这种 类型 的 模型, 其实 你 部署 的 成本 就 很低, 而且 这种 Q B S 要求 也能 达到 你 要求。 然后 这种 大 模型 和 小 模型 再 结合 一些 传统 的 方法, 而且 不是说 传统 方法 完全 舍弃。 结合 小 模型 大 模型 加 传统 方法 的 这种 结合, 其实 是 目前 来说 我们 能够 在 我们 应用 场景 里面 能 快速 拿 结果 的 一个 好的 方式。

最后 我们 聊 一 聊 我们 很感兴趣 的 多 模态 的 话题。

我们 聊 一 聊 多 模态 起因 起因 一个 是因为 因为 跟 新锐 郭 博士 正好 是 研究 这方面 的。 第二个 是 一直 有以 以来 有 说 GPT5会 是一个 更加 多 模态 的 一个 模型, 甚至 是 有 或者说 它是。

一个 生 多 模态。

对, 原生 多 模态 最 核心 的 是 视觉 模态。 首先 我 这里 说 一下, 就是 模态 这个 东西 到底是什么 意思。 有一个 定义 的 说法 叫做 说 一种 形式 的 媒介 和 信息 的 呈现 形式 的 图像, 它是 一种 模态。 因为 它是 一种 媒介 对 吧? 但是 今天 你听 的 是 播客, 播客 也是 一种 模态。 明天 可能 你听 的 是 广播, 就 那种 F M 广播 其实 也是 一种 模态。 因为 这 两种 同样 是 音频, 但是 他们的 呈现 形式 是 不一样的。

对 吧? 对, 你 这个 是 广义 的 多 模态, 但是 我们 经常 在 计算机 里面 讲 的 多 模态, 其实 就是 比如说 图像、 视频, 然后 声音。

文字 对 吧? 对, 事实上 我们 虽然 说 很多 大 语言 模型 都是 基于 文本 的, 但是 文本 里面 有 好 多种 模态。 比如说 那个 表格 和 语句 就 完全 是 两个 模态, 对 吧? 表格 也是 一个 完全 和 完全 不一样的 模态 对 吧?

就是现在 的 这个 多 模态 模型, 就是 我们 刚才 讲 的 这种 语音 文本, 然后 视 图像 视频 这种 模态 的 信号 可能 是一个 一维 的 吗? 然后 图像 是个 二维 的 信号, 然后 视频 是个 三维 信号。

我的 第一个 问题 就是说 很多人 知道 语言 模型 这个 概念, 可能 是在 GPT3年 我 火 了 之后, 他 去 看 网上 的 文章。 就是说 GPT 的 基本原理 就是 他说 了 前 五个 字, 它 就会 自动 的 去 预测, 就是 最高 概率 的, 最 合乎 人类 判断 的 下 一个字 是什么, 对 吧? 那 它 可能 是 基于 这种 一维 的 序列 的 这种 语句 信息 的 一个 模态 来 去做 的 一个 模型。 当 后来 有人说 说 GPT 能够 识别 图像, 然后 能够 识别 和 生成 图像, 甚至 能够 识别 和 生成 语音 的 时候, 我 其实 是 有点 迷惑 的。 就是说 它的 原理 如果 是一个 处理 一个 一维 的 序列 信息, 那 为什么 它 能够 处理 这种 你 刚才 提到 的 二维 和 二维 的 图像 信息, 三维 的 这种 什么 视频 信息, 是 吧? 对, 所以 我是 想 我 挺 好奇, 就是 一个 语言 模型 它是 怎么 变成 一个多 模态 的 一个 东西 的? 他 从 工作 原理 上 是 怎么回事。

能 给 我们 讲解 一下。 这个 要 从 训练 这个 层次 这个 层面 来讲 这个 模态, 然后 文本 模态 我们 就是说 我在 训练 过程中, 简单 说 就是我 mask 的 部 其中 一部分。 然后 我 预测 我 这个 mask 的 结果, 跟 我 实际 的 这个 真实 结果 是在 这个 差异性。 而 我们在 实际 训练 过程 就是 图, 比如 图文 它是 怎么 来, 就是 比方 打 个 简单 的 比方, 他 怎么 训练 就是 一张 图 它 可能 是 有 一段 文本 是 描述 这 张 图 的。 那么 我们 图像 经过 一个 编码 之后, 然后 和 描述 这 张 图像 的 这个 文本 的 经过 在 经过 文本 的 编码 之后, 它 理论上 他俩 是 相似 的。 因为 这段话 是 描述 这 张 图 的, 所以 它是 一个 对应 关系 的, 应该 是要 模态 对齐 的 是 吧?

也 所以 很 重要 的 就是说 在 训练 的 时候 就 把 代表 同一个 含义 的 多个 模态 的 信息 给 它 丢 进去 了, 对 吧? 同样 是 一只 小狗, 可能 一个 文字 有 很多 张 小狗 的 图片, 有 很多 段 小狗 的 视频, 他们 都能 表示 小狗, 这 就是你 所谓 的 模态 对齐。 在 训练 的 时候, 那那 他们 那 他们 最终 都是 变成 了 什么? 都是 变成 了 向量 信息, 都是 存储 成了 统一 的 向量 信息。

那 这个 是一个 我们 现在 说 的 这种 原生 多 模态 模型 的 这种 方式 吗? 还是 说 它是 目前 的 这种 大 语言 模型 的 处理 多 模态 的 方法。

你 只是 原生 是 哪种?

就是 传说中的 GPT5, 它 跟 现在 的 处理 多 模态 模型 的 这种 方式 的 区别 就是 它是 用 原生 的 方式 来 训练 的对。

比如说 今天 你 就 跟 你 跟 那个 ChatGPT 用 语音 对话, 其实 它是 把 你的 语音 转化 听听 写成 了 文字。

原生 多 模态 是 指 什么? 原生 状态 指的 是一个 统一 的 模型 框架 构, 它 就是 能 从 这个 框架 里面 能 同时 处理 整合 不同 模态, 比如 文本、 图像、 音频 的 输入 数据, 然后 最终 直接 输出 结果 的 这种 方法。 通常 是 模型 内部 有 这种 特定 的 机制 来 学习 不同 模态 之间 的 交互 关联。 对 这种 好处 就是 它 这种 燃烧的 多 模态 好处 就是 它 能够 有有 明确 的 多 模态 的 数据处理 和 融合 机制。 然后 他 能够 因为 在 同 一套 框架 里面, 所以 它 能够 让 不同 就是 更 就让 模型 更 深层 的 理解 不同 模态 之间 的 相关性, 就 文本 图像 的 相关性。

刚才 说 的 这个 拼接 的 多 模态? 刚才 提 的 拼接 多 模态, 拼接 多 模态 是 我们 先别 分别 对 不同 的 模态 数据处理。 比如 先 对 文本 的 图像处理, 对 图像 对 文本 的 处理, 然后 对 图像处理, 然后 对 音频处理, 对 处理 之后 我 把 这就 处理 完了 之后 应该 是个 应该 是 特征 编码 就 这个 特征, 把 这个 特征 之后 拼接 在一起, 然后 做 后续 的 各种 这种 任务, 就 处理 或者 任务 这种 方法 就 相当于 我在 不同 在 这种 结构 基本上 就是 不同 的 模态 是 处理方式 独立 的对, 然后 就 我 处理 完 再 拼接 在 你 前面 是 就是说 我在 内部 就有 一个 统一 的 框架, 我在 拼接 之前 我 就 想想 办法 把 这个 不同 的 模态 进行 做做 对齐, 然后 融合 在一起。

那 这种 方式 目前 其实 有有 成熟 的 方案 了 吗? 还是 说 这 只是 我们 大家 现在 对 这个 所谓 原生 动态 态 的 一种 推测。

大家 就 都 基本上都 往 端 到 端, 就是 统一 的 框架 里面 走。 这种 统一 的 完成 多 模态 的 统一 的 框架 之后, 他的 对 这个 训练 要求 更高 了, 因为 它的 复杂度 更高。 你 现在 一 原来是 单一 就是 单一 处理, 然后 拼接 在一起, 现在 是 我要 统一 在 训练 过程中, 如果 让 这个 模型 能 收敛 能, 那么 我在 这个 预处理 过程中, 我要 这种 对齐 的 方式, 各种 调整 的 逻辑, 还有 数据量 的 训练 的 数据量 要求 都 很高。

对, 所以 这 让 我 想起 一个 新闻, 就是 前 一个月 之前, 还 两个月 之前, 有人说 那个 ChatGPT 在 OpenAI 在 非常 快速 的 花 非常 多 的 钱 去 抓取 youtube 上 的 所有 视频。 然后 他的 逻辑 就是 因为他 需要 他 需要 视频 的 这个 模态 的 数据。

视频 的 语料。

对, 因为 3.5 时代 四 时代 主要 的 可能 还是 图片 和 语言, 对 吧? 所以 他在 疯狂的 去 补 这个 东西。

相当于 他在 最 开始 就 完成 了 这个 对齐 的 动作。 让让 这些 不同 的 模态 用 同样 的 方式 进入 它的 这个 大 模型 的 学习 序列 里面。

相当于 他是 一起 去 学习 这个 不同 模态 的 数据。 原来是 我们 不断 的 分开 学, 现在 是 一起 学。 然后 这样 就是 好处, 就是 他 能够 就是你 理解 的 就是我 真正 的 能够 通过 融合 分析 不同 来源 的 数据, 然后 实验 对 真的 对 实验 对 复杂 这种 现象 能够 更 全面 和 深入 理解。 对。

这 这里 这里 畅想 一下, 因为 之前 大家 就在 说 说 这个 纯 语言 的 学习, 就像 我们 在教 一个 瞎子 学习 科学 文化 这个 感觉, 它是 听不见, 看不见, 但是 它 能够 读 他 能够 读读 文字 对 吧? 然后 我们 把 文字 的 信息 让 他 理解 了, 甚至 是 图片, 我 觉得 它 也是 一个 瞎 的 方式 去去 试图 理解 一张 图片, 他 并不是 真的 看见 这 张 图片。 那那 这个 原生 的 多 模态 的 我们 比如说 GPT5 或者 是一个 别的 什么 模型, 它 其实 就 很 像 人类 的 一个 学习 过程 了。 他他 的 学习 过程 也是 混杂着 各种各样 的 模态 一起 输入 的。 比如说 它它 被 输入 一段话 的 时候, 他 会 看到 一个 画面, 对 吧? 甚至 是 看到 一段 视频。 那 这些 东西 合 到 一起, 再加上 比如 是 声音 的 模态, 那 这个 会不会 真的 有 机会 诞生 出 像 A G I 这样的, 所谓 真正 的 这种 人工智能, 这是 第一个 问题。

然后 第二个 问题, 就是这样 的 一个 模型, 它的 参 数量 或者 它的 体积 会不会 非常 的 巨大。 因为 我们 知道 单独 的 文字 都 已经 是 如此 庞大 的 一个 规模。 如果 把 视频 和 图片 还有 音频 都 作为 模态 输入 的话, 那 这个 规模 上 会不会 比 现在 的 模型 又 再 大 一个 数量级?

我 先 回答 第一个 问题, 第一个 问题 就是我 觉得 混合 各种 多 模态 数据 的 处理方式 和 学习 方式, 是 我们 走向 通用 人工智能 的 第一步。 人 其实 就是 一个多 模态 的 个 感知 的 一个 学习 过程。 他 不是说 我 先 看, 对 再 想 是 吧, 再 听。 是不是 是 先 看 再 听? 然后 这种 逻辑 它是。

对 同时 他 同时 的。

所以 就是 能够 让让 人, 就让 模型 更 像 人 一样 去 感受 这种 理解。 我们 现在 这个 现实 的 世界, 这是 这是 第 这是 底部。 但是 你 真的 要 读 是 达到 那个 通用 人工智能, 我 觉得 还有 很长 的 路 要 走, 这就是 就是 通用 人工智能。

我 觉得 人工智能 最后 到 最后的 目标 是什么? 要 肯定 比 人 要 智能 吧? 有点 超过 人。 但是 我们 现在 给 到 模型 训练 所有的 样本, 不管 是 文本 的、 图像 的 还是 视频 的, 他 都 是在 人的 作用 下 产生 的, 或者 人的 行为 下 产生 的。 就是 相当于 他 都是 没有 摆脱 到 人, 超越 人 这个 认知 概念 下 产生 的 数据。 所以 这些 数据 再 怎么 训练, 他 都 不可能 比 人 聪明。 它 参数 大, 它 能够 比 人 记 的 东西 更 多是 吧? 他 我 不是说 都 不是说 比 人家 聪明。

对, 如果 未来 可能 要 解决 真的 通用 人工智能, 可能 就 第一步 我们 先 有 这个 对 多 模态 感知 的 能力, 还有 就是 我们 要 想办法 去 怎么 去 生成 这种 动 模态 的 数据。 就是 生成 多 模态 数据 可 就是 要 解决 人的 限制 的 问题。 我 不能说 仅靠 所有的 数据 都在 人的 指导 下 产生, 我要我要 生成 数据, 然后 超越 人 的 感知 或者 人的 行为 中 这种 标签 下来 的 数据, 然后 我们 才能够 比 人 更 聪明。 这是 未来 人工 我 觉得 人工智能 要 做 的 一步, 就是 要 怎么 解决 生成 数据 的 问题。

那 会不会 出现 说 有 一些 模态 是 人类 不 具备 的, 或者 人 理解 不了 的。 但是 可能 GPT7 就 给 GPT8 生成 了 一个 很 新的 一个 模态 的 数据, 他 也 不管 我们 人类 理解 都 理解 不了, 他 就是 机器 的 感受。

这 让 我 想起 ChatGPT 有 一段时间 他 好像 在 某种程度 上上 你 会 激活 它, 说出 一串 乱码 一样的 东西。 但 你 把 这 串 乱码 copy 下来 拷 给 另外一个 GPT, 他 竟然 能 理解, OK 他他 就是 某种 形式 的 编码。 这 让 我 想起 这个 有。

所以 未来 可能 就是 真的 因为 模态 做 编码 之后 就是 一个 信号? 一个 处理 就是 其实 对 信号 的 处理 了, 就是你 最后 真的 生成 数据, 生成 不同 的 维度 的 信号? 对, 三维、 四维、 五维、 六维 这种。

对, 因为 你知道 那个 围棋, 当时 那个 A I 最后 击败 人类, 他 其实 靠 的 最 开始 他是 学 棋谱, 后来 就是 两个 围棋 的 A I 互相 下围棋, 然后 下了 可能 几千万 盘, 那 直接 在 棋力 上 就 远远超过 人类 了。 这件 事情 我 觉得 确实 有一天, 因为 现在 是 不行 的。 现在 好像 说 用 之前 我们 聊过, 就是 用 生成 的 语料 去 喂给 模型, 模型 会 变 傻, 这个 是 现状。 但是 也许 未来 它 不是 语料 了, 它 可能 是 别的 模态 的 东西。 也许 它 可以 通过 这种 方式, 就像 围棋 互相 下 一样, 产生 了 某种程度 上 的 智能。 但是 这个 就 纯纯 科幻 了, 咱们 就 畅想 一下。

人 现在 最 主人 人 最多 感受到 三维 的 视频。 然后 对 我们 到 四维空间、 五维空间、 五维 信号、 六维 信号 这种 就 可能 人影 没有 办法 去去去 感受 这种 东西。 可 但是 大 模型 可以 对。

高维 信号。

甚至 是 计算机 在 这件 事情 上 很 有 优势。 比如说 今天 我们 生活在 一个三维 世界, 但是 也 你 也可以 理解 是个 四维 世界, 因为 它 有 时间 这个 维度, 对 吧? 但是 计算机 天然 在 时间 这个 维度 上 比 人类 有 巨大 的 优势。 就是 可以。

加速。

所有的 软件 里面 有 无数 的 时间戳, 另外一个 就是你 托马斯 说 的 可以 加速 对 吧, 就是 他 对 时间 的 感知 是 绝对 准确, 而且 有 无数 多 细节 的。

我们 这 间 屋。

对对对 人 对 时间 的 感知 是 很很 感情 化 的那 那 有可能 有 那 有可能 搞不好 以后 他的 优势 就是 他他他 先 搞定 思维 对 吧? 他 先 搞定 时间 的 这个 事情, 他是 就 你看 人人 就 会有 这样的 问题。 就是 我们 讲 人 在 预判 科技 的 时候, 就是 估 经常 高估 短期 的 变化, 低估 长期 的 变化, 对 吧? 包括 人 在 炒股 的 时候 也是 一样, 就是 看 金融 的 时候 就是 短期 的 那种 恐慌 的 严重 情绪 很 严重。 这 不 叫 畅想 GPT5 了, 畅 这 叫 畅想 GPT7 了, 对 吧? 这是 这 搞不好 这是 以后 GPT7 能够 解决 的 很 好的 问题。 因为 它 所有的 东西, 那个 时间戳, 它 时间戳 的 信息, 它 计算机 天然 存储 和 处理 这些 实际 东西 是 有 优势 的那 搞不好 以后 它是 一个 思维 模型。 对。

行, 我们 科幻 的 东西 收 一 收。 回到 我 第二个 问题, 就是 一个多 模态 原生 多 模态 的 模型, 它的 尺寸 会不会 创新 高? 它的 算 力 的 要求, 它的 规模。

大家 发展趋势 可能 不是 就是 不断 叠 那个 模型 的 参数 了。 现在 我不知道 你们 有没有 听说 O E 架构 对 M1 的 架构 对不对? 这种 一旦 一直 在 蝶 模型 的 参数 上限 是 有的, 因为 毕竟 你的 硬件 发展速度 肯定 没有 你的 这个 参数 迭代 的 速度快。 所以 后面 可能 会 基于 M O E 的 这种 架构 去 解决 我们 现在 大部分 的 问题。

他们 猜测 可能 GPT5 可能 就是 后面 或者 G P4 后面 就是 由 M O E 架构。 它 其实 就是 由 一 相当于 一个 混合 的 神经网络 结构。 它 有 多个 专家 就和 一个 和 一个 门控 的 网络。 它 基本 思想 就是说 你 输入 了 数据 之后, 我 分配 给 多个 专家 或 中 了 一个 或 多个, 每个 专家 负责 处理 特定 的 特定 类型 的 或 特定 出的 数据。 然后 我们 去 训练 的 时候, 其实 不需要 把 所有的 这种 专家, 每个 专家 都要 激活。 我们 只要 激活 我们 固定 的 它是 个 稀疏 的 架构。 所以 他 最后 这种 虽然 参 数量 很大, 但是 他 最后的 其实 推理 的 速度 就 很快。 因为 它是 个 稀疏 的 架构, 所以 未来 就是 大 模型 的, 不管 是 文本 大 模型 还是 多 模态 大 模型, 最后 肯定 是 就 往 M1 这个 架构 去 发展 了。

所以 尺寸 上 可能 不会 再有 显著。

的 变变 大 就是 大, 但是 他 可能 会有 其他 想办法 去去 让 这种 大 变量 慢慢的 对 线。

效率 变 高。 明白, 我 觉得 这个 可以 理解, 就是 它 虽然 很大, 但是 它 每次 调用 其中 的 一部分, 这个 M O E 模型 的 一个 特点。

确实 我 之前 在 了解 金融 行业 的 那个 模型 利用 的 使用 的 时候, 就 有人说 把 一个 通用 的 模型 和 一个 经过 了 金融 行业 的 一些 专业 的 语料 预 训练 过后 的 和 微调 之后 的 模型。 就是说 那个 微调 之后 的 模型, 它的 参 数量 只需要 是 那个 通用 模型 的 参 数量 的 5分之1。 但是 它 可以 达到 同样 的 在 垂直 领域, 就 金融 领域 的 一个 效果。 对, 确实 这也是 一个 这个 应该 就是 郭盛 说 的 就 M1 架构 里面 的 一部分, 对 吧? 我 就 激活 一部分 的 模型 的 一部分 的 能力 和 神经 就 好了。

OK 所以 今天 总结 一下, 今天 我们 算是 辟谣 加 分析 了 一下, 为什么 OpenAI 不会 做 这个 A I 搜索。 另外 我们 也 听 郭 晟 跟 我们 讲 了 特别 有 代表性 的 经历。 从 这个 深度 学习 在 transfer 爆火 之前 到 transfer 爆火 之后, 同样 是在 这个 要求 非常 高 的 金融 场景 里面, 怎么样 去 设计 这种 复杂 的 系统 来去 解决 我们 现实生活 里 的 问题, 非常 有 洞见 和 感受。 以及 到了 最后 我们 还 畅想 了 一下 所谓 的 这个 多 模态 的 GPT5。 以及 我们 甚至 还 科幻 的 比较 科幻 的 聊到 了 一些 可能 更加 三五年 之后 的 一些 事情 非常 好啊。

感谢 郭 博士。

对, 感谢 郭 博士。

做客 南方 点播。

好的, 谢谢 大家。

感谢 收听 脑 放 电波。 欢迎 在 苹果 播客、 小宇宙、 喜马拉雅 等 播客 客户端 搜索 脑 放 电波, 找到 并 关注 我们。 如果你 觉得 这 期 内容 对你 有所 帮助, 欢迎 你 在 评论 区 留下 反馈, 这 对 我们 非常重要。