用 声音。
碰撞。
世界 生动活泼。 Hello 大家好, 我是 丁 叫, 欢迎 收听 全 新一集 next 科技 早知道。 Hello, 大家好, 欢迎来到 我们 今天 的 科技 早知道。 在 这 一季 的 第 11期里面, 我们 曾经 邀请 过 几位 研究 人员 和 大家 聊 了 聊 通用 人工智能 离 我们 有多远 这样的 一个 话题。 当时 听众 尖头 叉子 在 评论 区 里面 聊到, 终于 听到 了 一期 讲 A I 研究 的 节目 了。
也有 很多 听众 对 上一次 的 嘉宾 的 问题 表现 出了 很大 的 兴趣。 比如 像是 在 大 模型 的 记忆 和 泛化 上面, 研究 人员 是 怎么样 考虑 的那 也有 一些 说是 A I 除了 to c 端的 应用 之外, 还有 一些 其他 什么样 的 to b 端的 应用。 今天 抱着 这样 一些 问题, 我们 邀请 到了 一位 重磅 的 嘉宾 田奇 博士。 他是 现任 华为 云 人工智能 领域 的 首席 科学家, 国际 欧亚 科学院 院士。 然后 他 也是 i trip O E 的 fellow。 今天 我们 就 和田 老师 从 他 几十年 的 人工智能 的 从业 经验 来 一起 聊 一 聊 大 模型 华为 云盘 古 大 模型 的 研究 和 开发, 以及 在 to c 以外 的 行业 应用。 今天 欢迎 田老师 来 做客 我们的 节目。
你好, 主持人, 我是 田 琪, 大家好。
田老师 您 是 其实 一直 是在 人工智能, 算是 在 计算机视觉 领域 C V 领域 进行 研究 的。 整个 您 的 职业生涯 都 是在 这个 领域 的。 当时 为什么 是 选择 了 这个 领域? 能不能 快速 的 帮 我们 介绍 一下 您 的 这个 背景?
我 其实 正式 开始 从事 计算机视觉 的 研究, 是 1997年 我 到 UIUC, 就是 伊利诺伊大学 香槟 分校 读 博士 开始 的。 当时 我的 导师 是 托马斯 黄教授。 托马斯 黄 他是 计算机领域 的 帕尼尔, 他 培养 了 很多 的 师兄弟。 我 从 那个 时候 开始 从事 正式 的 思维 研究, 到 现在 的话 已经 有 26年 了。
在 计算机视觉 的 A I 应用, 其实 前几年 应该 是 特别 火 的。 从 T N 然后 到 这个 自动驾驶。 我不知道 您 整个 是 行业 的 这样的 一个 发展, 您 是 怎么样 的 观察 下来 的。
这个 游戏 其实我 自己 也 玩 过, 大概 1009年 10年 出来 以后, 我家 的 小孩子 就 很 喜欢他。
对我 也 买 过, 还很 好玩 打拳击 的。
对对对 对它 主要是 本身 除了 RGB 以外, 再加 了 一个 深度 捕捉。 实际上 我们 回答 这个 问题 来讲 的话, 就是说 学习 和 业界 怎么 相互促进 和 相互 发展, 对 吧? 我们在 过去 十几年 在 事业 中 看到 的 一个 问题, 一般 是 产业界 会 在 实际 的 应用 中, 它 会 提炼出 一些 问题。 把 这些 问题 给 学术界, 比如 支持 学术界 的 一些 研究, 希望 学术界 用 一些 先进 的 理论 来解决 这些 问题。
您 是 什么时候 从 学界 出来 跳 到 产业界 的?
如果 正式 说 加入 华为 的话, 是 2018年 6月份。 如果说 跟 工业界 的 合作 的话, 就 开始 很早 了。 之前 在 美国大学 做 老师 的 时候, 那就 跟 企业界 有 很多 的 合作。 跟 谷歌 的 合作, 跟 微软 的 合作, 跟 A N C 的 合作。
这 两年 工业界 其实 大家 一开始 在 看到 了 像是 chat B T 这 样子 的 一些 在 这个 工业界 的 应用。 然后 他在 学界 现在 大家 是 怎么样 看 的? 我不知道 这个 您 有没有 一些 观察。
是 这样的, 因为 这几年 的话 我 主要 聚焦 在 做大 模型。 到 目前 来讲 的话, 其实 是 要求 的 条件 是 比较高 的。 首先 你 得 有 比较 大 的 算 力, 这一点 的话 在 学术界 的话 可能 很难 具备 大量 算 力 这样的 一个 条件。 同样 的话, 你 得 有 大量 通用 的 数据。 一些 海量 的 通用 的 数据, 是 可以 从 学术界, 也可以 从 网上 去 下载。 但是 对于 一些 场景 的 行业 的 数据 的话, 学术界 也很 难 获得, 这是 第二个。 因此 大家 也可以 看到 在 整个 业界, 在 大 模型 方面 的 研究, 像 产业界 它是 领先于 学术界 的那 反过来, 产业界 在 大 模型 的 研究 中, 其实 也 发现 了 很多 的 问题, 也 包括 大 模型 的 比如说 推理 训练 的 问题。 如何 降低 我的 推理, 包括 训练 的 成本 以及 推理 的 成本。 这些 问题 的话 都 可以 交给 学术界 来进行 研究。
当然, 学术界 现在 我 听到 的 一些 问题是 相对 有 一些 困惑。 因为 在 这个 日 活 条件 大 模型 的 研究 中, 学术界 觉得 当 很多 老师 作为 独立 的 团队, 他们 还是 不太 具备 做大 模型 的 这个 条件。 因此 他们 很 渴望 跟 企业界 的 一种 合作。 企业界 来讲 的话, 也有 很多 开放性 的 课题, 可以在 大 模型 的 基础 上大 模型 的 底座 上 开放 给 学术界 一起来 做, 就 更能 去 推动 大 模型 的 发展。
咱们 这个 盘古 大 模型, 我知道 您 是 应该 是在 2021年 的 时候, 当时 就是 宣布 了 这个 盘古 的 大 模型。 当时 是一个 什么样 的 契机 是 想要 做 盘古 大 模型 的 呢?
首先 因为 到了 2020年, 我们在 自己的 研究 中, 也 从 几个 方向 提出了 一些 研究 的 子课题。 比如说 我们在 2020年 4月份 的 华为 的 H T C 大会 上, 我们在 关于 视觉 的 研究 方向 提出了 关于 数据模型 和 知识, 提出了 六个 课题。 数据 就 包括 数据魔方 计划, 数据 冰山 计划。 模型 包括 模型 摸 高 计划 和 模型 瘦身 计划。 模型 的 摸 高 就是指 做大 模型 做到 极致 的 性能。 在 知识 抽取 方面 来讲 的话, 我们 提出了 一个 叫 万物 浴室 的 计划。 另外一个 是 需求 合一。 因此 在 第六个 子 计划 中, 跟 我们 大 模型 研究 非常 相关 的 就是 一个 模型 摸 高 的 计划, 一个 是 万物 浴室 的 计划。
所以 从 那个 是 之前 就是 在 GPT3 出来 以前, 其实 我们 一直 在 往 这个 方向 在 不断 的 推进。 那 GPT3 在 2020年 5月份 出来 以后, 表现 出了 非常 好的 碾压 性 的 一些 表现。 这个 表现 在 C 位 的 研究 中 当时 还没有 看到, 但是 我们 就 直觉 的 感觉到, 这 是一个 非常 好的 一个 发展方向。 因此 从 2020年 的 夏天 开始, 就 开始 进行 大 模型 的 大 模型 aop 大 模型 C V 方向。 包括 后面 扩展 到 多 模态 科学计算 预测 决策 进行了 这样的 一项。
那 我 再 追问 几个 问题, 刚刚 您 说的是 咱们 其实 是在 2020年 的 时候 后, 其实 就 已经 在 几个 大 的 领域 去 进行 研究 了。 然后 当时 咱们 可能 最先 开始 研究 的 应该 就是 C V 计算机视觉 的 这个 大 模型 是 吧? 然后 NLP 也是 慢慢 加入 了 我们的 这个 计划 里面。 我不知道 当时 为什么 是 可能 先 选 C V 大 模型 开始 在 这个 领域 发力?
因为 像 团队 的 主要 的 成员, 包括 我自己, 主要是 视觉 的 背景。 所以 我们 当时 一直 是 想 做好 视觉 的 这样的 一个 底层 的 骨干 网络。 但是 C V 和 N O P 它是 有 一定 差别 的。 这个 B C V 的 一些 挑战, 比如说 它的 语义 信息 的 密度 是 非常 稀疏 的。 第二点 讲 的话, 它的 域 和域 间 的 差异 是 比较 大 的。 因此 这是 它 和 N O P 的 一些 本质 的 区别, 导致 了 当时 C V 做大 模型 它 会 面临 更多 的 一些 挑战。 但是 N O P 大 模型 出来 以后, 我们 也 看到 了 这样的 大 模型 它 带来 的 潜在 这样的 一个 能力。 所以 的话 在 我们 不仅 在 C V 大 模型 上 往前 推进 的话, 我们在 N O P 的 模型 上 的话 也就 开始 发力 了。
因为 好像 在 业界, 其实 现在 在 NLP, 现在 好像 open I 给 大家 发展 到了 一个 新的 高度。 其实 在 C V 方面, 好像 我们 现在 有点 落后 了。 我不知道 能不能 这么说, 很多 这个 研究 的 团队, 其实 把 C V 和 话 还是 挺 难 的。 对于 很多 的 研究 人员 来说, 它是 一个 前沿 的 一个 研究 的 一个 需要解决 的 难点。 我不知道 您 这块 儿 怎么看? 作为 一个 C V 的 专家。
C V 的 发展 在 这些年 确实 遇到 了 一些 瓶颈。 因为 现在 的话 我们是 把 C V 就像 说 的, 你 把 它 偷 成 nice 对 吧? 把 它 当做 一个 序列 的 这样的 一个 问题 来 处理 的。 但是 我们 认为 C V D 里面 存在 的 一些 问题, 那 主要是 什么 呢? 就像 比如说 是 N R P 这 大 模型 这么 成功, 主要是 C V 还没有 像 N O P 那样的 对话 任务 那样的 一个 东西, 构建 出 一个 完善 的 一个 交付 的 环境, 使得 A I 算法 能够 直接 在 目标 任务 上 进行 训练。 但是 这 两年 大家 看到 C V R A R P 的, 其实我 认为 他 快速 的 融合。 因此 我 认为 C V 大一统 的 模型 的话, 可能 会 在 未来 的 1到3年 之内 会 出现。 现在 更多 的 研究 是以 多 模态 的 形式 出现, 就是 在 比如说 结合 这个 N O P 和 C V 这 两个 方向。
我不知道 咱们 现在 的 这个 华为 盘古 大 模型, 我们的 研究 方向 是什么 样子 的。
我们 主要 研究 方向 我们 认为 就是 像 大 模型, 它 本身 就像 网上 所说 的, 它是 G P C 和 互联网 以后 它的 一些 新的 科技革命。 所以 很多 行业 的话 就会 被 大 模型 重塑。 我们的 研究 方向 来讲 的话, 就是 不仅 要在 算法 开发 上 的 深入研究, 另外 就是 在 工程化 和 商业化 要 进行 一个 探索。 就是 我们的 一些 算法 研究 人员, 他 主要 开发 和 训练 这样的 一个 大 模型, 我 刚才 讲 这个 大 模型, 我 指的 是 一系列 的 盘古 系列 大 模型。 算法 人员 刚才 说 的 主要是 训练 大 模型, 以 实现 大 模型 的 极致 性能 作为 自己的 目标。 另外 一块 人员 是 工程化 人员, 主要 负责 探索 如何 让 大众 和 企业 更 方便 的 去 使用 大 模型 为 行业 服务。 我们 认为 这是 A F industry 人工智能 下一个 新的 爆发 点对 吧?
最后的话 就是 除了 研究 和 工程化 以外, 我们 探索 一些 新的 商业模式, 保证 大 模型 的 这样的 一个 商业 成功。 我们 把 大 模型 赋能 千行 百业。 我们 把 分层 从 L 0到L 1到L 23层的 模式。 L 0的基础 模型 foundation model, 到 L 一 的 行业 模型, 到 L 2的这种 细分 场景 的 模型。 针对 不同 客户 的 需求, 我们 有 不同 的 商业模式。 比如说 我们 可以 提供 算 力, 我们 可以 帮 他们 去 build 这样的 一个 foundation model 对 吧? 或者 在 foundation model l 1L10 的 基础上 的话, 如何 帮 客户 去 训练 他们的 行业 模型, 甚至 是 帮 他们 如何 去 部署 他们的 一个 细分 场景 的 端 侧 和 鞭策 的 L 二 的 这么 一个 模型。
其实 这个 还有 挺 多 问题 我们 可以 延伸 的。 就 您 刚刚 讲 的, 它是 一个 系统性 的 模型, 然后 是 可以 分成 L 0、 L 一和 L 2的。 其实 根据 客户 的 需求, 你可以 不同 的 帮 他们 做 一些 部署, 然后 不同 的 这样的 一些 调整 和 组合? 所以 我 这样 理解 是 没错 的对 吧?
是的, 因为 客户 他 可能 有 不同 的 需求。 客户 如果说 他的 A I 的 团队 能力 较弱 的话, 我们 需要 帮助 他 从 foundation model 开始 建起。 如果 客户 有 一定 的 这样的 A I 团队, 但是 可能 相对 能力 不是 特别 够 的 时候, 那么 我们 可以 帮助 他们 去 建 L E 的 把 foundation model 把 它 建 好 以后, 在 L 一 的 基础上 加入 行业 数据 进行 和 预 训练。 帮助 他们 把 一些 任务, 叫 L 2的开发 任务, 可以 交给 他们 团队 自己 完成。 因为他 客户 的 需求 有 很 多种。 如果说 他的 团队 能力 非常 强, 他 就是 没有 算 力 的话, 那么 只是 帮 他 提供 算 力, 帮 他 去做 一些 指导 和 咨询 就 够了。
理解 就 您 刚刚 我们 其实 最早 开始 聊 的 几块, 就是 华为 盘古 底层 的 这个 大 模型 c NLP, 还有 整整 个 科学计算, 都是 属于 是 L 0的基础 大 模型 对 吧?
对, 就是说 我们 是从 基础 大 模型 开始 做起 的。 但是 就是 像 C V, N O P, 比如说 N O P, 我们 用 海量 的 互联网 的 数据 来 训练 了 一个 基础 模型。 在 上面 之上, 我们 再 用 行业 的 数据 或者说 一些 功能模块 的 数据 来做 各种各样 的 微调。 去 实现 对话, 实现 翻译, 实现 这样的 文案 摘要 的 不同 的 这样的 一个 应用。
现在 各个 大厂 其实 都在 积极 的 训练 自己的 大 模型, 当然 也 包括 一些 创业 公司 了。 华为 云盘 古 大 模型 不太 一样的 地方, 它 其实 的 切入点 是在 这个 to b 端, 是 A I for industry, 助力 千行 百业。 我不知道 田老师 能不能 给 我们 分享 一些 已经 落地 了的 应用。
因为 现在 实际上 我们的 目前 来讲 的话, 像 一些 大 模型 的 应用, 大部分 是在 N O P 的 方向。 在 实际 的 商业 落地 的 项目 中, 大量 的 是 C 位 的 项目, 还有 一些 预测 决策 的 多 模态, 从 研究 来讲 的话, 它 实际上 是一个 比较 新的 一个 领域。 在 学术界 的话, 这方面 研究 主要 是从 去年 开始 的。 在 多 模态 这方面 来讲 的话, 你 要说 现在 有 很多 的 行业 应用, 其实 业绩 也没有 太多 的。 所以 就 是从 我们 这 过去 一年 多 的话, 更多 的 应用 还是 在 视觉 的 项目 中, 在 N L P 的 项目 中。 实际上 我们 去年 交付 了 一个 千亿 参数 的 阿拉伯语 的 大 模型, 这 可能 是 业界 首个 商业 落地 的。 而且 千亿 参数 的 NLP 大 模型。
同样 的话 就是 科学计算 来讲 的话, 我们在 海洋气象 上 就 做了 自己的 科学。 比如说 盘古 海洋 大 模型, 盘古 气象 大 模型。 如果 从 商业 变现 的 角度 来讲 的话, 这 两个 其实 还在 商业 变现 的 推进 的 过程中。 但是 从 使用 效果 来看 的话, 比如 像 我们的 盘古 气象 大 模型, 已经 被 欧洲 气象局 和 中国气象局, 还 包括 谷歌、 英伟 达、 法国 气象局、 英国 气象局 做了, 多次 的 这样的 一个 对比 的 一个 实验。 所以 他在 报告 中 的话, 像 欧洲 气象局 也 承认, 对于 盘古 系统 相比 的话, 盘古 系统 相对于 欧洲 气象 中心 的 数据 预报 的话 有了 大幅 的 一个 提升。 并且 在 今年 的 在 2023年 的 世界 气象 大会 上 的话, 欧洲 气象局 的 执行 总裁 他 也 说, 从 今年 6月份 他们 开始 更新 的 系统 中, 他们 会 和 盘古 的 预测 做 对比。 对 就现在 就是 N O P 和 C V 结合 多 模态 的 这样的 一个 应用, 实际上 在 业界 它 更多 的 是 处于 一种 研究 的 一个 状态。 就是 我们 今年 谈到 很多 客户, 很多 客户 都 提出了 这样的 需求, 只是 具体 的 案例 还没有 完成 当然 里面 还有 一些 的 研究 还在继续 中。
对, 因为 现在 大家 好像 在 聊 NLP, 然后 一些 落地 的 应用 其实 就是 一些 拆, 然后 可能 在 to c 端的 应用 想象 空间 会 更 多一点。 当 您 提出来 赋能 工业 的 时候, 其实 还是 挺 让 大家 觉得 想要 去 多一些 了解。 现在 在 工业 场合 当中 是 有 哪些 是 我们 能够 很快 能 看到 它的 一个 市场 增长点 和 爆发 点的。 我不知道 这 一块儿 您 刚刚 说 已经 聊 了 一些 这种 潜在 的 客户。 但是 我们 还是 在 可能 早期 的 共同 研发, 共同开发 行业 的 这个 解决 solution 当中。 我不知道 能不能 透露 一些, 刚 除了 在 气象 上面 有没有 一些 其他 的 可以 给 我们 稍微 介绍 一下 的。
这样 从 几个 方面 来看, 一 从 需求 这方面 看, 工业 领域 有 大量 场景 存在 自动化 的 这样的 一个 需求。 比如说 工业 质检, 一个 摄像头 能够 替代 机械 重复 的 这种 人工 的 动作, 就 非常适合 A I 模型 的 这些 场景 进行 发力, 进行 自动化 的 升级, 具有 可观 的 这种 潜在 价值。 这 从 需求 上 看, 从 数据 上 来看 的话, 得益于 通讯 或者 数字化 手段 的 普及。 每个 行业 都 积累 了 海量 的 高质量 的 电子化 的 数据, 能够 满足 数据 驱动 的 A I 模型 进行 大规模 的 训练。 从 结构 现状 上 看 的话, 许多 工业 场景 已经 完成 了 数字化 的 转型, 而 智能化 的 转型 还 存在 着 巨大 的 空间。 我们 这几年 在 to b 的 行业 中, 也 在 A F induction 这个 道路 上 的话, 也 积累 了 很多 经验。
能不能 咱们 讲 几个 具体 的 例子 呢?
其实 非常 多, 我 讲 几个, 一个 是 铁路 的 这样的 一个 缺陷 检测, 我们 叫 T F D S。 一般来讲 的话, 它是 通过 人工 的 巡检, 难度 就 比较 大。 目前 比如说 全国 大概 有 6000人左右 的 这样的 动态 检测员, 他 承担 着 对 T F T S 检测设备 所 拍摄 的 车辆 的 图像, 它 进行 人工 的 分析, 工作量 比较 大。
我们 团队 大概 从 2020年 开始 探索 铁路 这个 T F D S 的 智能 的 识别系统。 实现 了 超过 三百多个 故障 的 自动化 识别, 但是 故障 的 总体 识别率 达到 了 99.15。 从 结果 上 来看 的话, 就是 在 2022年 去年 12月份 进行 评测 的 时候, 针对 78个 设计 的 这个 故障, 那么 算法 实现 了 零 漏检。 人工 漏检 其实 还有 16个。 因此 在 铁路 上 T F T S 战略 应用 获得 了 国铁 集团 正式 发布 的 一个 技术 审查 的 一个 证明, 这是 盘古 团队 他 发布 的 可 商用 这种 大 模型 的 一个 落地 的 场景。 可以 全面 的 提升 检测员 的 工作效率, 确保 车辆 故障 的 精确 分析。
另外 的话 就是说 比如说 在 电力 巡检 上, 我们在 国网 电力 巡检 最早 的 方法。 但是 工人 比如说 爬 到 高 架上 进行 人工 的 这样 一个 检查, 当然 是 非常 不安全 的。 后面 的话 变成 了 无人机 的 巡检。 但是 无人机 每天 会 拍摄 海量 的 照片, 那 其实 在 里面 有 缺陷 的 样本 还是 非常少 的。 因此 如何 从 海量 的 这种 收集 的 照 这个 照片 中 快速 的 去 筛选 可能 有 缺陷 的 这样的 照片。
如何 从 筛选 出来 图片 中 快速 的 去 识别 是 哪种 缺陷? 就是 过去 都 是用 小 模型 来做 的。 在 我们 使用 盘古 大 模型 以前, 各个 厂商 基本上 采用 多个 小 模型 来 适配 不同 的 缺陷。 模型 大小 的 这样的 数量级, 基本 是 像 传统 大家 所用 的 resonate 50厂商 网络 50 50 乘 这样的 一个 大小 参数 在 400万左右。 我们 盘古 大 模型 针对 输电 场景 的 它的 几个 大类 的 这样的 一个 缺陷 的 检测。 我 仅 使用 一种 模型 就可以 适配 上百种 小 类别 的 缺陷。 这个 模型 的 参 数量 大概 在 4亿左右。 使用 这个 盘古 大 模型 以后, 相对于 之前 的 基准 的 方法, 它 提升 了 20% 以上 的 准确率, 并且 大幅 的 减少 了 人工 的 标注 量。 同时 将 它的 筛选 效率 提升 了 30倍, 筛选 质量 的 提升 了 五倍 以上。
就 您 刚刚 讲, 其实 咱们 之前 很多 行业 的 应用, 其实 多个 小 模型 跟 它 结合起来, 然后 现在 变成 了 一个 大 模型, 其实 是在 这个 效率 上面 和 成本 上面 都是 有 巨大 的 提升。 我不知道 中间 过程 中的 算 力 消耗 的 这个 情况 是 怎么样 的。
所以 你 消耗 的话, 其实我 先 说 气象, 好吧, 我 先 说 问题, 它是 在 全球 海洋 的 任何 一个 位置, 比如说 告知 它的 经度 和 纬度 以后, 我 就可以 定位。 第二 来讲 的话, 告知 他的 当地 当时 的 风速, 这个 是 条件。 那么 问题 是什么? 告诉我 现在 这个 地方 在 这个 风速 的 情况下, 它的 波浪 浪高 是 多少?
那么 传统 的 科学计算 来 求解 这个 问题 的话, 它 可能 要 用 比如说 像 太 富光 这样的 一个 超 算 中心, 几百个 节点 的 一个 算 力。 它 可能 要 运算 两天 才能 做 一次 列车。 在 我们的 盘古 这个 海洋 模型 中 的话, 我 做 一次 推理 预测 的话 可能 只需要 一秒钟。 换句话说 的话, 在 做 全球 的 这样的 一个 天气预报 上, 对 未来 一 小时 到 七天 这样的 一个 全球 的 天气预报, 未来 24小时 的 天气预报 为例, 可能 你 在 超 算 中心 你 需要 3000个节点 的 超 算算 力, 也 可能 是 需要 运算 几个 小时 才能 得到 一次 预测。 但是 同样 的 在 盘古 气象 大 模型 来讲 的话, 它 做 一次 预报 在 24小时 天气预报 的话, 它 只需要 1.4秒。
这个 算 力 是 极大 的 提升 了。
对, 这 算 力 是 极大 提升。 甚至 现在 中国气象局 下载 了 我们的 去 使用 我们的 盘古 气象 模型 进行 预测 的 时候, 它 在 C P U 上 就可以 跑。 在 C P U 上 跑 的话, 他 可能 需要 几个 小时。 但 对我 来讲 的话, 我 觉得 花 几个 小时, 比如说 我 不如 去 买 块 G P U, 对 吧? 但是 即使 几个 小时, 这样的 一个 中国气象局 他们 也是 可以 接受 的。
就 刚才 讲 的 是 A I 推理 的 过程 会 非常 快 的 训练 的话。 对 盘古 气象 来讲 的话, 我们 用了 全球。 比如说 过去 40年 的 数据 总量, 它的 一个 数据 可能 超过 1000TB 实际上 我们在 训练 我们 第一个 版本 的 时候, 我的 数据 可能 用到 它的 一个 子集, 可能 在 100TB 到 200TB 之间。 我 训练 这样的 一个 像 模型, 我是 做了 一个 3D的, 叫做 transformer 架构 这样 一个 模型。 现在 我们 发 了 一些 新的 工作, 其实 我们 已经 完成, 只是 还没有 对外 公开。 就是 我们 把 过去 需要 三个 月256 卡 的 这样的 一个 训练 的 任务, 我 已经 把 它 降低 到了 用 八 卡 只需要 不到 一周 的 时间。 甚至 将来 从 256 卡 个 月 的 训练量 降低 到 现在 巴卡 不到 三天 的 训练量 就可以 完成。
那么 对 这样的 一个 带来 的 一个 impact 的 影响 是什么 呢? 就是 过去 西昌 预报 它 需要 巨大 的 超 算算 力, 甚至 是 很多 小的 国家 他 都 没法 去 完成 的 一个 任务。 现在 的话 我 把 它 变成 了 巴卡, 对, 三天 就可以 完成 在 普通 的 大学 的 一个 实验室, 将来 就可以 完成 这样的 一个 气象预报 的 一个 训练 一个 过程。
我 作为 一个 不是 这个 technical background 的 人我 想要 知道 其实 咱们 这个 参数 已经 足够, 然后 它是 足够 这个 模型 其实 是 比较 泛化 的, 在 上面 再加 其他 的 一些 训练 是 更加 容易 了, 还是 因为 什么 其他 的 原因?
首先 来讲, 因为 实际上 对 气象 这 一块 来讲 的话, 比如 我 用 3d transformer 架构, 我们是 把 这个 气象预报 的 问题 当成 了 一个 视觉 来来 处理 的 一个 问题。 参 数量 是 很大 的对 吧? 但是 在 视觉 的 问题 中, 它 不 光光 是 说 参 数量 大, 而且 看我的 计算 的 复杂度 是 很高 的。
所以 咱们 其实 解决 了 计算 复杂度 的 问题, 通过 算法 然后 计算 量, 现在 如果 同样 的 计算 量 的话, 其实 都 可以 更加 快速 高效 的 进行。 我可以 这么 理解 吗?
是的, 就是 我们在 气象 数据 中, 因为 我们 把 国内 气象 全球 来讲 的话, 它的 经度 和 纬度? 它 精度 是 一个 0到360度 这样的 一个 范围。 它的 纬度 从 北半球 到 南半球, 它是 一个 180度 这样的 一个 范围。 然后 我们 获得 的 数据 的 它的 经纬度 的 分辨率 是 多少 呢? 是 0.25 乘以 0.25。 反过来 讲 的话, 从 把 它 这样的 一个 分辨率 进行 网格化 以后, 我们 把 全球 就可以 网格化 成 一个 1440 乘以 720这样 一个 大小 的 像素点。 对 气象 来讲 的话, 我们的 这个 通道 可能 它是 有 五个 这样 一个 值, 对 吧? 当时 选择 了 一些 位置, 高度、 风速 等等。
还有一个 来讲 的话, 气象 来讲 的话, 它 从 海平面 到 高空, 它 其实 是 有 可以 分成 37个 不同 的 等压 层。 不同 等压面 就是 不同 代表 七层 的 一个 高度, 分成 了 37个 等 下面 我们在 第一版 的 训练 中, 把 它 用到 其中 的 13个等 下面。 所以 实际上 它的 气象 的 输入 相对于 图像 的 输入, 它的 输入 是 1440 乘以 720乘以 5再乘以 13, 13就分 三个 等压面。 那么 这个 大小 相对于 图像 大小, 在 224乘24 乘以 3的话, 基本上 大 了 快 500倍。 我想说 的 是什么 呢? 就是说 气象 的 输入 和 输出 相对于 常规 做 的 C V 的 图像, 它是 要 大 很多 的。
好, 我 稍微 来 总结 一下, 原来 需要 24个小时, 现在 只需要 1.4秒。 这个 数据 还是 蛮 震惊 到 我的, 特别是 刚刚 田老师 讲 的 这个 精度、 纬度, 然后 在 等压 层 这些 等等 的 这个 数据 叠加 起来, 数据量 是 非常 大 的。 因为 咱们 现在 只是 一个 开始。 如果我们 能 持续的 通过 AI 大 模型, 然后 让 我们 人类 能够 更好 的 掌握 气象。 那 我们 不管 可能 是在 农业、 交通, 甚至 是 可能 航天 航海, 可能 因为 这样的 一波 技术 的 加持, 未来 的 想象 空间 就是 人类 不管 是 生活 更好 了, 还是 我们 效率 更高 的 这个 想象 空间 我 觉得 还是 挺挺 大 的。 我不知道 在 在 其他 的 行业 上面, 这样 还有 一些 什么样 的 想象 空间 呢?
我们在 大概 2020年 的 时候, 当时 判断 人工智能 有 两个 发展方向。 一个 是 趋势, 是 小 模型 到大 模型 的 一个 趋势。 第二个 来讲 的话 是 说是 人工智能 和 传统 科学计算 的 一个 结合, 就是 a science。 我们 认为 A I 对 传统 的 科学计算 有 很 极大 的 想象 空间。 刚刚 在 海洋 和 气象 方面? 那么 在 药物 分子 研发 方面 来讲 的话, 也 把 它的 过去 的 这种 小分子 的 筛选 的 这样 一个 周期。 从 过去 的 可能 一个 数年 的 时间 能 完成 的 工作, 把 它 降到 数个 月 甚至 1个月 以内。
大 模型 这个 方面 来讲 的话, 当时 有 几个 观点, 想象 空间 就 比较 大。 第一 来讲 就是说 我们 认为 大 模型 是 A I 的 发展 底座, 这个 来讲 的话, 就是 目前 已经 是 变成 了 现实 验证 了的。 第二个 来讲 的话, 我们 认为 大 模型 会 是 人工智能 的 操作系统, 这个 也是 正在 发生 的 事情。 网上 它 支持 更多 的 这种 A P I, 支持 更多 的 这样的 一个 插件, 往 下 的话 它 会 软硬件 更好 的 适配。 会 针对 我 大 模型 的 这样的 一个 训练, 降低 比如 降低 我的 训练 的 这样的 一个 成本, 提高 的 训练 效率, 提高 我的 这个 推理 的 效率。 就 会有 很多 专门 的 硬件 来 适配 我的 这样的 一个 办公室。
第三 来讲 的话, 大 模型 我 认为 下一个 就是 刚 说的是 会 从 千行 百业 的, 将来 还会 走向 千家万户, 那 现在 就 刚才 讲到 我们 A I for industry 对 吧? 就是 A I 会 赋能 千行 百业, 另外 一方面 来讲 的话, 就像 大型机 一样。 曾经 认为 世界上 可能 全世界 需要 5台大型机 就 够了。 但 实际上 的话, 后来 大型机 向 个人电脑, 像 personal computer, 像 P C 的 一个 发展, 对 吧? 让 大 让 计算机 真正 的 走入 了 千家万户。
那么 大 模型 也是 这样, 就是 大 模型 现在 可能 需要 极大 的 算 力 来 训练 它, 而且 需要 较高 的 一个 成本 来进行 推理。 所以 很难 部署 到 比如说 一些 端 侧 的 设备 上, 就 手机 上。 但是 将来 的话, 比如说 大 模型 和 这个 底层 的 芯片 更好 的 这样 适配 以后, 可能 让 我的 这个 推理 成本 可能 成 百倍、 成 千倍, 甚至 成 万倍 的 这样的 一个 降低。 有可能 就可以 把 我的 这个 大 模型, 将来 就可以 比如说 装载 在 手机芯片 上。 这样 一旦 发生 的话, 你 讲 的话 就像 大型机 一样, 它 变成 了 P C 机。
所以 听起来 现在 咱们 大 模型 的 发展 肯定 最大 的 一个 卡 点。 这个 阻力 是在 咱们 的 这个 芯片 上面。 然后 可能 是 跟 芯片 适配 的 这些 应用 方面 的 和 咱们 的 软件 层面 的 协同 是不是 高效。 我 觉得 这个 应该 是 现在 大家 业界 主要 研究 的 这个 方向, 或者 想 改进 的 方向。
那 刚才 就是 提到 还是 这个 算 力 的 问题, 对 吧? 可能 由于 一些 外在 的 因素, 我们的 不能 获取 更多 的 这样的 一个 像 英英 伟达 的 这样的 一个 芯片 或者 算 力。 但是 我们 国产 的 算 力, 像 华为 的 生成 算 力 的话, 其实 还是 非常 充沛, 源源不断 的。 我们 现在 的 大 模型 的 训练, 绝大多数 都 是在 自己的 这个 生成 算 力 上 完成 的。 而且 随着 我们的 生成 算 力 的 源源不断 的 补充, 现在 可能 有 比如说 几 千卡 这样的 一个 生成 算 力 的 一个 支持。 那 将来 的话, 我们 可能 有 几万 张, 甚至 几十万 张 这样的 生成 芯片 的 这样的 一个 算 力 支持。
因此 的话 在 算 力 方面 来讲 的话, 在 相当长 的 一段时间 内 的话, 是 有 充沛 的 自 研 的 这样的 一个 算 力 来 支持 的。 并且 我们的 这个 生成 算 力 来讲 的话, 可能 通过 算 力 的 优化 来讲 的话, 优化 以后 它的 这个 算 力 的 发挥 会 再 提升 50% 甚至 1倍以上。 比如说 用 我们的 这样的 一个 生成 的 算 力 去 更好 适配 我 大 模型 的 训练。
然后 您 刚刚 讲 其实 是 大 模型 是 人工智能 的 底座。 然后 我 又 想到 其实 咱们 盘古 大 模型, 它的 这个 泛化 性 是 非常 好的。 因为 前段时间 我们 也 跟 其他 的 一些 嘉宾 也 聊过, 其实 泛化 性 跟 记忆性 两者 是 是 有 一些 trade off 的。 我不知道 这块 是 怎么样 来 理解, 就 我们在 什么样 的 领域 应用 上面 是 我们 需要 更加 泛化 的, 或者 什么样 我们 需要 它的 记忆性 更强。 我 这块 儿 能不能 帮 我们 来 再 详细 解释一下。
分化 性 和 积极性 并不矛盾。 本身 的话 大 模型 的 优点 我们是 想说, 但是 在于 它的 泛化 性 强。 也就是说 过去 的话 我们的 开发 的 这种 小 模型, 也可以 说 它的 记忆 有限 对 吧? 因为 这个 大 模型 就是 因为我 叫做 我 可能 见过 所有的 数据 对 吧, 我 基本上 就是 所有的 这样的 一个 pattern。 所以 大家 在 新的 场景 中 的话, 它 只要 加 一些 少量 的 数据 进行 微调, 它 就可以 针对性 的 去 提高 它的 这样 的应 应用 的 一个 精度。 但 小 模型 的话 因为 它的 记忆 不够, 对 吧, 所以 的话 它的 这个 泛化 能力 比较 弱。 在 未来 来讲 的话, 就是说 大小 模型 是 可以 更好 的 协同 的。
这个 怎么讲 呢?
因为 大 语言 模型 它 更 像 一个 内 脑 中枢, 不同 专家 小 模型 它是 更 像 一些 具体 的 小 功能。 因为我 把 大 模型 训练 好了 之后 的话, 通过 大 模型 我的 语言中枢, 我知道 我 这个 内 脑 中枢, 我知道 去 在 不同 面对 不同 问题 的 时候, 去 调用 什么样 的 这样的 一个 专家 小 模型。 所以 这样的 一个 大小 模型 的 协同, 就是说 大 模型 作为 中枢 决策 系统 来 调用 过 的 小 模型, 来解决 这个 行业 的 问题, 也是 将来 非常 值得 探索 的 一个 方向。
田老师, 您 自己是 C V 领域 的 大拿 专家, 不知道 咱们 其他 的 团队 成员 是一个 什么 样子 的 构成 呢?
首先 这个 盘古 团队 是 过去 三年 从 应该说 是 各个 高校 吸引 和 招聘 回来的 都是 一群 朝气蓬勃 的 年轻人。 盘古 团队 的 平均年龄 不到 30岁.
他 非常 年轻。
都是 最好的 年龄, 正值 这种 创新 的 一个 巅峰期。 因此 同学们 有 这种 国家 的 无限 的 活力 和 信心 来 挑 面对 各种 挑战。 并且 这种 年轻 的 团队 的话, 通过 几年 这样的 一个 磨合, 当然 我们 刚 说 了 我们 打造 了 这种 盘古 的 系列 的 模型。 比如说 我们 现在 有 五大类 新 加 的 搜索 推荐, 就是 在 L P C V 多态 科学计算 预测 决策。 在 过去 五大 模型 方面, 团队 也 经过 几年 的 这样 一个 磨合, 他们 经常 在一起 碰撞, 经常 在一起 相互 的 牵连 着 对方。 这些 都是 这个 盘古 大 模型 能够 不断 取得 一些 进步, 往前 推进 的 一个 理由。
到了 这个 最后 一块儿, 其实 是 想要 跟 田老师 我们 展望 一下 未来。 其实 现在 来看 的话, 我们 刚 其实 也 聊到 了 一些 现在 可能 在 行业 应用 上 的 瓶颈。 然后 包括 一些 这种 我们 现在 是 被 这个 算 力, 被 这个 芯片 制约 的 这样的 一个 现状。 我不知道 嗯哪 一些 行业 还能 通过 这个 大 模型 大幅度 提 效。 这么说 在 跟 行业 的 客户 聊 的 这个 过程 当中, 哪 一些 还是 我们 可能 在 积极 和 对方 一起 在 共同 在 探索 的 这样的 一些 行业 领域。
那就是说 刚才 在 前面 提到 就是说 我们 已经 看到 大 模型 在 这个 aop 视觉 中 取得 的 一些 显著 的 这种 效果 提升。 但是 将来 的话, 还有 很多 能够 为 大 模型 所 开发 的 这种 领域。 比如说 医疗 健康、 商业 及 金融, 环境 科学, 内容 创作 这 几个 方向。 比如说 在 医疗 健康 的话, 我们 可以 使用 大 模型 来进行 一些 医疗 影像 的 分析。 对 C T M R 图像 进行 这样的 一个 深度 学习, 以便 更 准确 的 检测 疾病 的 这些 早期 迹象, 或者 对 疾病 进行 更 这种 精确 的 分析。 我们 也 通过 也可以 通过 大 数据 和 复杂 的 算法 来 预测 个体 的 健康 风险, 或者 分析 基因变异 对 个体 健康 的 影响。 那 就是 大 模型 在 健康 医疗 健康 领域 的 这样的 一个 一个 提 效。
第二个 来讲 的话, 比如说 在 商业 及 金融 领域, 大 模型 可以 用来 帮助 提高 决策 的 精度 或者 效率。 尤其是 在 需要 处理 大量 数据 和 多个 复杂 因素 的 情况下。 比如说 在 考虑 一些 投资决策, 供应链 的 优化 运行 管理。 那么 可以 用 大 模型 对对对 市场趋势 进行 一个 预测, 来 指导 我们的 投资决策。 或者 用 大型企业 可以 利用 大 模型 来进行 来 优化 我们的 供应链 的 管理, 通过 预测 需求 和 分析 各种因素, 有 原材料 价格、 运输成本 来确定 最佳 的 生产 和 配送 的 策略。
在 第三个 方向 来讲 的话, 我们 想到 的 这个 是 环境 科学。 大 模型 可以 用来 来 模拟 全球 的 期货 系统, 预测 未来 的 这种 气候变化, 甚至 长期 的 气候变化。 比如说 半年 一年? 那 全球 是 变暖 还是 今年 的 冬天, 是一个 暖冬 还是 一个 寒冬? 这就是 非常重要 的 一个 事情。 这样的话 可以 帮助 我们 更好 的 去 理解 并且 做好 全球 这种 有变 暖和 变 寒 的 一个 应对。 最后的话 就是说 我们 想到 在 内容 创作 的 这个 领域, 现在 大家 知道 这 生成 是 A I A I G C 的 这个 大 模型 能力 的 提升。 动漫 的 从业人员 将 能够 利用 这种 AIGC 的 大 模型, 比如说 进行 这种 语言、 图片、 视频、 音频、 3D等 内容 生成, 加速 内容 行业 的 这样的 一个 发展, 当然 我相信 还有 很多 了, 就是 提到 的 一些 听起来。
好像 很多 领域 其实 都 是一个 需要 咱们 这个 多 模态 的 大 模型 的 持续的 发展 才能 达到 的 一个 未来。 特别是在 刚才 讲 的 最后的 这个 内容 创作 领域, 还有 这个 健康 医疗 领域, 其实 不仅仅 只是 可能 我们 现在 大家 已经 谈谈 的 太多 的 这个 NLP 领域 了。 如果我们 最后一个 问题 想要 再 我 再 请教 一下 田老师。 如果 可能 是在 底层, 因为 整个 的 X G B 的 发展 是 离不开 这个 transformer 的 这样的 一个 基础 的 研究。 它的 这样的 一个 进展。 我不知道 咱们 现在 在 科研 领域 前沿, 还是 哪 一些 是 可能 我们会 攻克 的, 或者 大家 正在 挠头 的 希望 攻克 的 这样的 一个 能够 这样 一个 领域, 能够 让 我们在 到达 下一个 让人 惊叹 的 这样的 一个 进步。
我 觉得 这方面 来讲 的话, 可以 这样 讲, 就是说 大家 看到 了 动物 态势 未来。 我们 现在 GPT 的话, 这样的 一个 它 代表 的 一个 纹身 纹 这样的 一个 大 模型 的。 我们 也 看到 AIGC 确认 你是 纹身 图, 对 吧? 纹身 视频。
那么 我 认为 现在 的 变化 是什么 呢? 就 相当于 把 现在 GPT, 把 它 叫做 黑白 的 无声电影, 变成 将来 多 模态 的 彩色的 有声电影。 黑白 就是说 现在 才是 一个 文本, 对 吧? 那么 将来 会有 图像, 会有 视频, 它是 彩色的, 再来 加上 语音 的话, 这就是 有声。 所以 就说 从 传统 的 黑白电影 变成 彩色的 有声电影, 这个 事情 是 一定 正在 发生, 而且 一定 会 实现 的。
它 里面 的 一个 难度 在哪里 呢? 就在于 我们 现在 的, 比如说 我们的 C V, 我们的 N O P, 宣传 是 全 方 的 架构。 但 还是 不同 的 网络 来 处理 不同 的 输入。 或者 A O P 是 文本 的 输入, 对 吧? 那么 我 视频 的 输入, 我 将来 这个 语音 的 输入, 将来 是 希望 我 有一个 在 多 模态 上 统一 的 一个 架构, 就 一个 网络, 一个 unified 的 网络, 就 统一 的 网络, 你可以 配合 不同 的 输入, 我 有 视频 的 输入, 文本 的 输入, 我 有一套 统一 的 架构。
但 这个 统一 架构 到底 应该 怎么做 呢? 应该 是 现在 很多 研究 人员 都在 努力 去做 的 一件 事情。 他 最 主要 来讲 的话 就是说 可能 这个 效果 还没有 出来。 所以 统一 的 多 模态 的 A I 技术 架构, 可能 未来 1到3年 研究 的 一个 主要 的 一个 方向。
其实 我们 刚才 也 稍微 聊到, 就是 他 可以 理解 成 他 token nize 这样的 一个 过程 是吗? 就 不管 是你的 这个 视觉 还是 其他 的 一些 音频 或者 视频。
通过 我是 把 把 图像, 把 这个 比较 视觉 的 问题 转变成 了 这个 程序 列 的 问题。 但 实际上 的话 我们 知道 就是说 语言 它是 一个 时间 序列 的 问题。 时间 序列 对 吧? 但是 图像 视频 来讲, 它 还是 有 很多 空间信息 的。 那么 如何 保证 这些 空间信息 不 丢失 的 情况 下来 把 它 当成 一种 这种 长 序列 的 问题 呢? 这个 也是 比较 值得 考虑 的 一个 问题。
也是 在 大家 在 研究 的 一个 重要 的 领域 和 方。
在 行业 应用 来讲 的话, 可能 我 还有 一些 研究 方向 值得 大家 关注。 刚才 讲 的 第一个, 就是说 我们 还是 提到 大小 模型 的 要 协同, 对不对? 刚才 讲 了, 还有 一些 问题 来讲 的话, 就是 如何 做 垂 域 数据 的 高效 标注 和 模型 的 微调。
比如说 将来 我们的 行业 应用 来讲 的话, 如果 从 通用 的 大 模型 到 行业 大 模型, 因为 需要 关注 具体 的 这种 行业 数据 来进行 微调, 才能 解决 这个 对应 的 行业 的 问题。 比如 金融 行业, 我需要 需要 金融 的 数据, 电力行业 需要 电力 的 数据。 因此 第一个 就是 如何 构建 高效 的 垂 域 数据 标注 系统, 是一个 非常 值得 研究 的 一个 方向 之一。 第二个 来讲 的话, 有了 行业 的 权益 数据 以后, 如何 进行 模型 的 高效 微调, 也是 有 价值 的 研究 方向。 那么 在 这个 合适 的 模型 微调 方式, 它 能够 有效 的 降低 对 数据 标注 需求量 和 模型 训练 的 代价。 这个 就是 刚 讲 第二个 问题, 就是 垂直 数据 的 高效 标注 与 模型 微调。
还有一个 问题, 刚才 也 讲 了, 就是 在 大小 模型 的 问题。 就是说 因为我 很多 的 应用 可能 是在 端 侧 或者 边侧, 因此 大 模型 的 量化 减值 蒸馏 也是 非常重要 的。 因此 大 模型 在 具体 的 一些 行业 的 落地 过程 中要 考虑 模型 的 复杂度、 它的 推理 速度、 它的 运算 成本。 因此 如何 做到 大 模型 的 这样的 一个 剪枝 蒸馏, 去 适配 我的 这个 端 侧 鞭策 的 这样的 一个 场景, 也是 重要 的 研究 方向。
还有一个 方向 来讲 的话, 就是 如何 进行 外部 知识 的 增强。 我们 讲 了 我们的 基础 模型, 它是 一个 通用 的 这样的 一个 知识库。 它是 在 海量 的 数据 中 进行 训练 归纳 而来 的。 也就是说 大 模型 的 能力 它是 受限于 这种 训练 的 语料。 但 一些 行业 知识 并没有 出现 在 这个 训练 的 语料 中, 那么 他 就 缺乏 相应 的 这样的 一个 能力。 那么 行 因此 如何 去 利用 外部 的 一些 知识, 增强 比如说 额外 的 专业 知识 图谱, 就是 我们 加入 搜索引擎 得到 的 这样的 检索 的 一些 知识, 在 提升 大 模型 的 能力, 在 实际 的 行业 中 也是 值得 非常 探索 的 一个 方向。
所以 很多 这些 其实 是 需要 跟 不同 的 行业, 它的 个体 的 需求, 然后 再 跟 我们的 研究 人员 是 一起 在 往前 在 探索 的。 刚刚 您 讲到 有一个 比较 专业 的 术语, 什么 端 侧 鞭策 的 一个 什么什么 推 流 那 块儿 我没有 太 明白, 我不知道 能不能 再 稍微 再 解释一下。
我们 说 大 模型 的, 比如说 部署 可以在 云 测 云端 通过 提供 这个 A B A P I 的 方式 供 大家 调用 大 模型 的 能力。 将来 比如说 你 想 把 大家 部署 到 手机 上, 这是 现在 是 很 困难 吧? 因为 手机 的 容量 组织 带宽, 那么 如何 把 大 模型 小型化? 你 比如说 你 想做 一个 图像去噪, 你 需要 一个 合适 大小 的 模型 能够 在 手机 端 随时 调用。 那么 就是 这次 叫做 大 模型 的 需要 做 一些 量化? 做 一些 减值 和 蒸馏, 得到 一个 合适 的 小 模型, 部署 到 这个 端 侧 的 设备 上。 那边 测 来讲 的话, 就是 像 无人驾驶 一样, 边侧 相对于 端 侧 可能 算 力 会 大 一点, 但是 它 还是 跟 预测 就是 在 算 力能 提供 算 力 是 不一样的。
理解 了 这个 就是 咱们 的这 这个 专业术语。
对, 其实 就是说 还有一个 很 好的 一个 应用 来讲 的话, 我们 讲 大 模型 就是 预 训练 大 模型 其实 它 主要是 两个 阶段, 一个 是 预 训练 的 阶段, 对 吧? 预 训练 阶段 用 海量 数据 进行。 对于 训练 还有一个 叫 这个 叫 微调 与 部署 的 阶段。 微调 大家 很 明白, 就是我 用 行业 数据 针对性 的 进行 调 优, 对 某个 应用。 部署 就 刚才 说 的, 就是说 我要 在 云 测 或者 边侧 或者 端 侧 进行 部署。
其实 还有一个 很 重要 来讲 的话, 实现 有 数据模型 这种 全生命周期 后期 的 一个 迭代。 就是 大 模型 你 希望 它 越 用 越好, 但 新的 数据 的话 又 在 源源不断 的 产生。 如何 把 新的 数据 加 到 原来的 预 训练 的 大 模型 中, 这个 非常重要? 所以 还 存在 着 一个 大 模型 的 一个 迭代, 这样的 新的 一个 形成 一个 闭环。
在 实际 应用 中 的话, 我们会 发现 我们 其实 面对 非常 多 的 这种 小 样本 的 场景, 像 工业 质检 比如说 我们在 煤矿 的 矿山 模型 的 部署 中, 我们 可能 在 这个 一条 主 运输 皮带 上, 它 可能 是 小 样本。 比如说 这个 C 框架 模型, 它 可能 会 部署 在 不同 的 煤矿 里面。 比如说 我 我 有 上 百个 煤矿, 甚至 上 千个 煤矿, 我 都有 这样的 一个 小 样本 的 场景。 如果 这个 时候 能 实现 更好 的 端 云 协同 或者 边缘 云 协同。 那么 我在 端 侧 或者 鞭策 这些 典型 的 小 样本 场景 中, 我 收集 到 的 一些 样本, 把 它 反馈 到 我的 从 L 2反馈 到 我的 L 一上。 刚刚 讲 的 说 如果 从 那 部署 模型 反馈 到 我的 这个 行业 大 模型 上 来讲 的话, 那么 我 就可以 从 许许多多 的 小 样本 场景 中 反馈 回来 一些 数据, 在 我的 行业 大 模型 上 进行 这样的 一个 更新。 更新 以后, 再 把 这个 更新 的 模型 再 下发 到 这些 小 样本 的 场景。 就可以 更好 的 实现 这样 端 云 系统 解决 这种 小 样本 的 一个 问题。
明白, 所以 他 可能 是在 这个 开发成本 上 肯定 是 最优 的, 因为你 不需要 重新 再 开发 这个 大 模型 了。 而且 这个 可能 不是说 所有的 人都 会 需要 这个 细分 场景 的 这样的 一个 检测 的 数据。 所以 这样 其实 是 把 它 分开 解决, 分好 分三步 解决问题。
对他 主要是 说 如何 让 大 模型 在 新的 数据 源源不断 增加 的 情况下, 能够 实现 大 模型 的 这样 一个 增量 学习, 实现 将来 的 这种 大 模型 的 一种 终身学习。
其实 现在 目前 有 很多 的 企业 都有 训练 大 模型 的 需求。 田老师 能不能 给 我们 揭秘 一下 华为 云 的 盘古 大 模型 是 怎么样 训练 的, 怎么样 练成 的?
我们在 训练 盘古 N O P 这个 就是 2021年 4月份 发布 的 大 模型 的 时候, 我们 当时 训练 了 两个 模型。 一个 是 盘古, 一个 大概 1100亿 这样的 一个 模型。 还有一个 就是 另外一个 模型, 就是 盘古 阿尔法 的 一个 模型, 大概是 个 2200亿 的 一个 参数 的。 这 两个 模型 都 是在 生成 算 力 上 训练 完成 的。 我们 当时 用到 了 最多 的 用到 了 将近 4000块, 4900 10 的 一个 算 这个 芯片 来进行 训练。
他 训练 当时 花了 几个 月 的 时间, 首先 的话 这个 盘古 大 模型 的 训练 过程 需要 海量 的 数据。 在 过程中 的话, 我们 收集 了 上百 T B 的 这样的 一个 百科知识、 文学作品、 程序代码 这些 文本 数据, 收集 了 可能 数十亿 张 这种 图像 和 这种 图文 对的 数据, 用于 多 模态 的 训练 对 吧? 以及 我 刚才 讲 的 气象 方面 来讲 的话, 我们 收集 了 数百 T B 这样的 一个 全球 的 气象 数据, 用于 支撑 各个 大 模型 的 这样 一个 训练。
其次 在 盘古 大 模型 的 训练 的 过程中, 需要 海量 的 算 力。 我们的 大量 的 计算资源 来来 训练 我的 模型。 这 里面 就 包括 使用 像 NPU 跟 华为 的 这样的 一个 生成 算 力。 当然 我们 也有 一些 基于 G P U 的 一些 训练, 以及 分布式计算 集群 这样的 一个 高性能 的 计算 设备。 包括 使用 这种 并行计算 的 框架 来 加速 这个 大 模型 的 训练 过程。 另外 我们 基于 华为 全 栈 自 研 的 这样的 一个 生成 芯片 和 一站式 的 这种 A I 开发 平台, 我们的 model art 进行 超大规模 的 训练。 盘古 的这 各个 系列 大 模型 基本上都 要 使用 大概 几百张 甚至 上 千张 的 生成 芯片 训练 数个 月 的 时间, 当然 的 华为 的 算 力 和 这个 平台 团队 为 我们 提供了 这种 强有力 的 保障。
最后 来讲 的话 就是 我们 训练 大 模型 的话, 还要 对 训练 好的 模型 进行 综合 的 评估 和 测试, 以 确保 它的 实际 应用 中的 这种 性能 和 可靠性。 整个 过程 也 需要 充分利用 海量 的 数据 和 计算资源 才能 达到 最好的 效果。 这个 前面 强调 了 海量 数据, 海量 的 算 力。 当然了, 我们 还是 需要 优异 的 这种 模型 架构 和 训练 算法。 因为 这种 好的 模型 设计 和 训练 算法 会 起到 事半功倍 的 效果。
比如说 我们在 设计 和 训练 盘古 大 模型 的 时候, 我们 基于 这种 我们 讲 了 transformer 的 这个 模型 架构, 我们 做了 很多 工作。 比如说 对 位置 编码 激活 函数 做了 改进。 通过 我们的 一系列 的 叫做 比如 张量 并行 流水线 并行 算子 融合 的 方式, 来 提高 大规模 分布式 训练 的 效率。 在 整个 盘古 的 训练, 你看 需要 海量 的 数据, 海量 的 算 力, 很好 优异 的 模型 架构 和 训练 算法。 除了 这些 以外, 其实 盘古 大 模型 的 一个 成功 的话, 其实 一个 核心 还是 离不开 这种 优秀 的 团队 的 这些 同学。
好的, 今天 非常 谢谢 田老师 帮 我们 科普 了 很多 关于 华为 云盘 古 大 模型 的 细节。 我 最 意外 的 其实 应该 是 这个 团队 大家 都 好好 大家 都 好 年轻, 都 不到 30岁。 另外 一点 我 觉得 是 对我 有 在 思想 认知 上 的 一个 启发, 就是 听 老师说 这个 大 模型 会 是 人工智能 的 一个 操作系统。 就 不管 未来 我们 有 更多 的 软件 或者 是 硬件 的 升级 迭代 开发 等等, 都会 通过 A P I 更好 的 适配 这个 大 模型。 另外 其实 一点 我 觉得 我也 受 启发 的 就是 其实 现在 的 这个 大 模型 不是说 每个 行业, 每个 公司 都要 重新 训练 一遍。 其实 可以 根据 像是 华为 这种 L 0的模型、 L 一 的 模型、 L 3的模型, 它是 一个 基础 的 行业 的 和 细分 的 这样的 一个 区别, 其实 互相 打 配合, 然后 对 不同 的 行业 的 需求 或者 场景 来来 配合 就 好了, 不用 所有人 都 重新开始 开发 和 训练。 然后 包括 像是 这个 细分 的 场景 的 这样的 一个 小 模型, 可以 反哺 到 这个 大 模型 里面。 这个 还是 我 觉得 蛮有意思 的 一个点。
除此之外, 也 非常感谢 田老师 帮 我们 介绍 了 现在已经 有的 一些 案例 了。 包括 这个 天理 电力 巡检, 然后 这个 秒 级 预报 的 就 1.4秒 这个 数据, 非常 快 的 能够 预测 现在 的 气象。 当然了, 最后 我 觉得 可能 让 我 比较 有 印象 的 就是 咱们 华为 云 强有力 的 技术支持, 特别是 这个 算 力 的 支持, 其实 是 来自 华为 的 自 研 芯片。
7月7号 举办 的 华为 开发者 大会 上面, 华为 云 发布 了 全新 升级 的 盘古 大 模型。 今天 听 我们 节目 有 兴趣 的 听众 朋友们 可以 去 关注 一下。 好了, 我们 今天 的 节目 就 到 这里 了。 好了, 再一次 感谢 田老师, 谢谢。
也 非常感谢 丁 叫。
这 期 what nex 科技 早知道 就 到 这里 了。 听 完 之后 如果你 有 任何 的 想法, 欢迎 在 评论 区 里面 给 我们 留言, 我们 每 一条 都会 认真 的 看。 如果 你喜欢 我们的 节目, 请 记得 给 我们 五星 或者 好评, 分享 给 更多 的 朋友, 也会 对 我们 非常 有 帮助。 你 也可以 单独 写邮件 给我, 邮箱地址 是 听 T I N G 艾特 声 点 F M, 我 都会 一一 回复。 同时 公众 号 和 微博 也可以 搜索 生动活泼 声 是 声音 的 声, 节目 相关 的 更多 信息 会 在 公众 号 里 出现, 微博 和 公众 号 都 会有 不定期 的 福利 给 到 大家。
如果你 想要 跟 我们 更加 紧密 的 讨论 和 分享, 或者 是 想要 认识 和你一样 有 求知欲 的 新 朋友, 可以 加入 我们的 微信 群。 进入 听众 群 的 方法 是在 公众 号 文章 中 扫 码 添加, 或者 是 公众 号 后台 回复 科技 早知道, 即可 获取 邀请码。 期待 你的 加入, 我们 下期 见。