好, 欢迎 大家 收听 三 五环, 我是 刘飞。 今天 邀请 到 的 是 原 智能 的 两位 联合 创始人 刘潇 和 罗璇, 跟 大家 打 声 招呼。
大家好, 我是 刘潇, 我是 原 智能 O S 的 C T O, 我是一个 物联网 人, 然后 也 做了 很多年 的 A I 应用。
大家好, 我是 罗璇, 我是 元 智能 的 现在 C P U 然后 负责 产品, 包括 跟 对外 的 合作, 包括 一些 社群 的 活动, 现在 我 都在 负责。 我 之前 是 阿里 的 A I 和 机器人 的 产品 总监, 后来 18年 出来 又 创立 了 一家 机器人公司。 现在 从 机器人 这块 出来, 跟 几个 朋友 一起 成立 了 这家 A I 大 模型 的 公司, 就 叫 原 智能。
因为我 知道 原 智能 本身 也是 螺旋 老师 组织 的。 上次 在 博客 的 时候 聊过 深圳 ai 黑客 马拉松 要 参加 之后, 原 智能 是 第一名。 能不能 简单 介绍 一下 当时 组织 的 这个 活动, 以及 说 对 这个 原 智能 的 第一名 的 当时 的 情景。
我 简单 讲 一下, 我们 上次 是 3月11号, 我 组织 了 中国 第一场 的 AIGC 的 action。 当时 有 六十多个 团队, 最后 决赛 进 决赛 有 17个团队, 袁志 伦 这个 团队 是 当时 我们的 冠军。 当时 还没有 单独 成立 一家 新的 公司, 全职 在 里面 的 可能 就 一两个 人。 然后 后来 又有 兼职 的, 有 一两个 人 进去。 但是 这个 项目 本身 是 非常 有 特点 的, 而且 非常 的 在 全球 范围 的 这个 开源社区, 还有 开发者 里面 是 非常 有 声望 的 一个 开源 大 模型。 当时 那个 项目 是 基于 这个 开源 大 模型, 我们 做了 很多 的 info 和 应用。 所以 当时 我们 这个 hyson 十个 评委 一致认为 这个 项目 是 最好的 一个 项目, 所以 当时 是 拿了 冠军。 后来 我是 经过 第一季 的 海森 过来 以后, 将近 一个月 的 样子。 智能 的 包括 蓬勃, 包括 孔 琴, 还有 刘潇 就 邀请 我 加入 这个 团队 一起来 我们 单独 在深圳 这边 成立 一家 公司, 就 叫 原 智能。
因为 上次 咱们 见面 聊 的 时候, 是 这个 活动 刚 结束。 当时 这个 评比 里面 相当 有 技术含量 的 一个。 不仅 是 说 找 了 一个 场景 的 探索, 就 它 本身 算是 首屈一指 的 一个 开源 的 大 模型。
对 吧? 没错, 它 不单是 国内, 甚至 全球 范围内 的 一个 非常 有 特点 的 一个 开源 大 模型。 第一, 其实 他 做 的 整个 的 架构 不是 基于 现在 OpenAI的 G PT的 一 个架 构。 其实 是在 transformer 的 基础上 做了 很多 的 优化, 把 整个 transformer 的 时间复杂度 把 它 降下来 了, 从 N 的 平方 降到 了 N 这 是一个 巨大 的 一个 改进。 在 这个 降 复杂度 的 同时, 整个 的 性能 并没有 出现 衰减。 可以 说 现在 在 全球 范围内, 这个 模型 都是 非常 有 竞争力 的。 只是 因为 我们 整个 团队 的 人数 比较 少, 现在 还在 融资 的 阶段。 等 我们的 整个 的 模型 的 参 数量 和 数据集 逐步 的 起来 以后, 我们 可以 看到 跟 市面上 的 一个 大 模型 的 一个 竞争 优势。
刘潇 这块 是 怎么看 的? 尤其 现在 的 像 open I 的 路线 有 哪些 区别? 什么 是 R W K V 模型?
就是 R W K V 我们 叫 软 库。 其实 就是 三年 前 彭 老师 就 开始 做 这个 事儿。 那个 时候 还是 GPT2 的 时代。 彭 老师 他 作为 一个 毕业于 物理系, 但是 他 对 这个 神经网络 脑神经 这 一块 特别 熟悉。 然后 他 很快 的 迅速 的 发现 了 这个 GPT two 的 优化 空间。 这个 优化 主要是 在 时间 和 空间 复杂度 上 的 优化, 然后 就 很 受到 国外 开源社区 的 认可, 后续 他 就是 以 这个 为 起点, 然后 不断 的 去 尝试 优化, 然后 从 这个 R N 的 这个 角度 去 优化 这个 目标, 就将 这个 transformer 这样 N 平方 的 这样的 时间复杂度 降到 了 这个 O N, 然后 将 这个 空间 复杂度 从 O N 降到 O 1, 实际上 就 已经 做 的 很 极致 了。
其实 我们 也 看到, 觉得 这 是一个 很 神奇 的 事情。 其实 这 里面 就有 很多 的 trick, 很多 的 这种 技巧。 然后 也是 一个 思考 逻辑, 去 理解 这个 transformer 里面 的 弱点, 怎么 去 理解 这个 transformer, 它是 怎么 去 记忆 的, 怎么 去 推理 的。 然后 他 怎么 再去 把 它 那些 技巧 去 迁移 到 这个 R N N 里面, 并且 能够 练 收敛, 让 这个 模型 能够 去 有 能力 去 记忆, 这样 就 比拼 这个 transformer 这个 过程, 我 觉得 非常 有趣 的 过程。
那能 不能说 的 再 具体 一些, 就是 这个 大 模型 和 目前 其他 家 做 的, 包括 大厂 做 的 那些 大 模型 有有 哪些 可以 描述 出来 的 区别 吗?
首先 就是 他 每次 去 推理 的 时候 都要 去 看 上下文, R N N 是一个 有 状态 的, 那个 状态 本身 是要 能够 去就 更 像是 人的 思考 的 记忆 的 方式, 一个 长期 的 记忆, 可以 这么 理解, 那么 这个 transformer 可能 在 细节 上面 记得 更好, 大家 都 因为 觉得 这个 transformer 替代 了 R N, 这样的 一个 过程 就是 确实 当时 来说 性能 更好 一些。 他在 做 任务 和 各个 指标 上面 都 表现 的 比 R N 要好 很多。 在 这个 R N 这 一块 去 改进 的 时候, 就要 思考 说 怎么 去 让 这个 RNN 能够 学习 到 contest learning, 然后 学习 到 这个 更 细节 的 内容, 这个 常识 的 记忆 更加 有 优势。 就是 把 这个 优势 也能 体现 出来, 同时 能够 把 细节 也 记忆 的 更好, 这个 是 我们 从 一开始 的 初心, 就 跟 现在 各 大厂 的 这个 初衷 也 不太 一样。 就是 大家 可能 还是 以 一个 现有 的 底座 去 不断 的 去 往里面 加 数据 训练 来做 的。 我们 想 去做 下一代, 去 更 远 的 长远 的 去 看待 对 这个 长远 的 预期。 比如说 这个 事情 我们 应该 是 开放 的, 然后 让 这个 模型 在 端 上能 跑, 然后 把 这个 性能指标 做到 极致。 这就是我 觉得 是一个 比较 大 的 区别。
听起来 的 那个 路径 和 方向 是 不太 一样。 对于 大厂 来说, 它 其实 不是 特别 care 说 成本, 或者说 关心 可能 调用 的 成本 就可以 了, 不用 关心 这个 建模 的 成本。 未来 的 目标 是 让 端 上都 可用, 可能 都 每个人 能 低成本 的 去 建 一个 大 模型。
更多 的 时候 大家 也可以 迁移 到 这个 R N, 就是 这个 R W K 为 底座 的 模型 方向 上, 我们 认为 这 是一个 未来 的 方向。 同时 在 目前 的 性能指标 下面 来 上, 我们是 和 这个 141 的 参数 下面 是 70% 的 任务 是 超过 这个 同类 的 GPT 的 这个 模型 的。 也就是说 其实 我们是 占 了 上风, 在 140亿 参数 的情 情况 下面, 然后 我们 认为 这个 参 数量 再 增大 的 时候, 会有 更加 神奇 的 事情 发生, 因为 实际上 很多 底层 的 逻辑 不一样。 以后 我们 可能 同时 还能 战胜 G D T、 G P T 类型 的 模型 的话。 将来 到 1000亿的 时候, 它 会 发生 什么样 的 神奇 的 事情, 我们 都很 期待。
现在 的 成本 有没有 比较 具象 的 表述? 大家 现在 感知 上 可能 比如说 你 要 烧 显卡, 你 要 去 要 非常 大量 的 数据, 包括 标注 的 数据。 那 你们 目前 在 成本 上 的 降低 和 在 效率 上 的 提升, 有没有 更更 具象 的 一种 表述?
比如说 我要 做 两倍 的 参 数量, 那么 这个 transformer 架构 它 需要 四倍 的 运行 的 成本 提升。 他 如果 做 三倍 的 参 数量 就要 九倍 R N 是 不会 的, 就是 这个 R 库 是 不会 的对 140亿 参数 来说, 我们的 成本 可以 控制 到 100万人民币 这么 一个 情况。 其实 对 一家 公司 来说, 它是 有 能力 去 训练 一个 小 而 美的 模型 的。 其实 在 30亿左右 就有 涌现。 140亿 的 它 这个 模型, 它 已经 有 比较 好的 能力 表现 了。 可能 在 这个 chaf salt 下面 会 稍 微弱 一点。 但是 对于 一些 特定 的 任务 上面, 比如说 写作 或者 摘要, 一些 工作流, 就是 有 生产 效率 提升 的 这个 问题 上面, 都是 有 空间 可以 做到 很 优秀 的。 我们 刚才 说 我们的 调 优 成本 就 更 低 了, 这个 确实 是一个 比较 大 的 一个 优化。
目前 来看 它 可能 是 比较 适合。 比如说 它 不一定 是 去 跟 那些 大厂 做 的 那种 所谓 A G I 的, 或者 接近 A G I 的 那种 覆盖 各种 场景 的 大 模型 去 竞争。 未来 很 可能 是因为 它 开源 以及 成本 更 低。 是不是 在 很多 垂直 场景, 在 很多 垂直 领域, 大家 都 可以 用 它 来 搭 自己的 这个 模型。
是 这样的, 开源 这个 事情 在 前期 的 时候, 你看 默默 的 做了 三年, 大家 都 不知道 的 时候, 它是 一个 缓慢 和 需要 意志力 和 执行力 的 过程。 因为 没有人 来 帮你。 彭博 就是 R W K V 的 作者, 不断 地 去 调 优 自己的 模型, 去 清洗 数据 对 吧? 还要 找 算 力, 这个 过程 也是 一个 漫长 的 过程。 但是 到 后面 的 时候, 这个 开源 生态 就是 原来 肯定 是 很慢 的 一个 过程。 当 大家 都 知道 都 了解, 然后 他 开始 相信 这件 事情 的 时候, 这个 事情 就会 有一个 一个 质变。 这个 时候 它 会 快 于 这个 闭源 的 项目。
我们 可能 在 垂直 领域 上面 就会 出现 很多 的 开源 生态 里面 的 小伙伴 们 都在 就 去 把 这个 模型 进行 各种 优化 和调 优, 像 搭积木 一样 去做 一些 模块, 然后 去 调整 模型 的 输出。 它 这个 能力 的 成本 很低 了 以后, 它 就 确实 是 能够 去 把 这个 特定 领域 打 穿 的。 其实 我们在 不断 的 去 训练 模型 的 时候, 我们 也 想 提供 更 全面 的 能力。 其实 两个 都 不会 冲突。 他 既 会 去 在 垂直 领域 里 很多 的 快 的 节奏 的 这么 一个 开源 生产, 也会 在 这个 大 的 领域 里面 和 这个 OpenAI 直接 竞争。
我 觉得 首先 第一个 模型 的 最大 的 两个 特点, 第一个 就是 它的 复杂度, 时间复杂度 和 空间 复杂度。 这个 带来 的 绝对优势 是 将来 这个 模型 在 端 上, 尤其是 在 芯片 上 跑 的话, 它 跟 现在 的 GPT 相比 是 有 绝对 的 领先优势 的。 另外一个 就是 这个 大 模型, 它的 整个 的 贡献 是 开源社区 在 做 很多 的 贡献。 这个 跟 现在 的 OpenAI也 不 一样。 Open I 虽然 叫 OpenAI但 是它 在 3 .0以 后就 已 经闭 源了, 它 已经 不再 open 了。 这就是 我们 跟 现在 的 市面上 包括 open N I 和 其他 基于 GPT 的 模型 最大 的 两个 差异 点。
回过头来 就是说 我们 接下来 会 做 哪些 事情 呢? 当然了, 我们会 基于 我们的 优势 去 端 上 走, 包括 C 端, 包括 在 硬件 端 怎么样, 甚至 在 芯片 端 怎么样 落地 大 模型。 我们的 判断 是 大 模型 的 未来 是在 端, 而 不是 在云端, 为什么呢? 首先 第一, 云端 有一个 巨大 的 问题, 就是我 的 数据 全部 都要 通过 云 服务 去 到 OpenAI, 或者 是 其他 云 服务 的, 或者 是 A I 厂商 的 服务器 上。 这 是一个 巨大 的 数据安全 问题。
这是 所谓 你们 在 做 的 是 私有化 部署。
对 吧? 两个, 一个 是在 C 端的 手机 上 私有化 部署, 以及 在 我们 B 端的 自己的 服务器, 或者 是 他的 私有 云 上去 做 部署, 这个 是一个 巨大 的 问题。 现在 大量 的 商业 公司, 包括, 金融, 包括 律所, 包括 医药公司, 他们 都想 用 大 模型。 但是 关键问题 就在于 我 不敢 用。 因为 这些 公司 都有 巨大 的 数据安全 的 问题, 他们是 不敢 用 的。 所以 那 现在 有没有 一家 公司 能够 提供 一个 能够 在 本地化 部署 的 一个 大 模型。 这就是 接下来 可能 大家 都会 看 的 一个 市场。 而 我们在 这个 市场上 是 有 领先优势。 就像 刚刚 说 的, 我们在 训练 和 推理 上 对 资源 的 消耗 跟 GPT 相 GPT 这种 类型 的 大 模型 相比 是 有 绝对 领先优势 的。
还有一个 一个 关键 的 点, 就是 我们 现在 发现 ChatGPT 实际上 是 我们 大部分 人都 在 用 的 一个 产品, 对 吧? 但 ChatGPT 有一个 大家 一直 吐槽 的 一个点, 就是 它 长 文本 支持 的 不好。 无论是 长 文本 的 生成 也好, 还是 其他 也好, 它 一旦 生 成长 文本 的话, 它的 整个 的 性能 会 出问题。 所以 chat G P 实际上 是在 有意 的 去 限制 你的 长 文本 的 生成 的。 因为 它 本身 是一个 O N 平方 的 一个 复杂度, 文本 长度 越长 的话, 它的 复杂度 是一个 成 几何 式 的 一个 增长 的。 我们 反倒 是 可以 很 好的 在 生成 一个 常用 本 的。
这个 领域 做 的 很好。 比如说 一些 商业 的 文书, 比如说 代码 的 长 的 代码 的 生成 等等, 这个 领域 是 有 绝对 的 领先优势 的。 这就是我 刚刚 其实 提到 了 我们 几个 关键 的 落地, 还有 跟 GPT 的 差异 的 点。 这也是 我们 接下来 可能 会要 做 的 事。
就 比如说 现在 大厂 投入 了 很多 财力, 投入 了 很多 人才, 然后 花 重金 挖 人, 包括 服务器 等等。 那 在 这方面 的 竞争, 你 会 觉得 你们的 这个 优势 是因为 路线 上 的 优势, 还是 说 因为 你们 选择 的 路线。 在 刚才 说 的 这些, 不管 是 人才 或者 投入 的 资源 也好, 并 不输 大厂, 还是 说 你们 也会 有 人才 或者 财力 上 的 各方面 的 压力。
AI 这个 领域 最 关键 的 问题, 本质 上 就是 未来 这个 算法 要 跑 在 芯片 上。 过去 的 P C 的 芯片 也好, 包括 后来 的 手机 的 芯片 也好, 包括 现在 的 一些 AI 的 专用 芯片 也好, 包括 谷歌 的 T P U, 甚至 是 现在 在 端 上 有 很多 异构 的 一些 芯片。 这样的 算法 肯定 是在 端 上 跑, 这个 是 效率 最大化, 成本 最低, 最 大规模 使用 的 一个 场景, 对 吧? 那 终局 这个 算法 的 空间 和 时间 的 复杂度 就 成为 了 一个 决定性 的 因素。 比如说 我们的 时间 是 O N 空间 是 O 1, 这 已经达到 极致 了, 这 是对 芯片 极度 友好 的。
第二 是什么 呢? 我们的 一个 开源 的 这种 方式, 其实 是一个 很 好的 很快 的 能够 聚集 大量 的对 这个 模型 感兴趣, 有 热情 的 开发者 来 一起 贡献 这个 代码 的 这种 模式。 最近 在 美国 湾区 也 在 讨论, 到底 A I 是 应该 开源, 还是 应该 像 OpenAI这 种闭 源。 我们的 一贯 的 认为是 闭源 是 闭 不住 的, 开源 才是 真正 的 长期 能够 快速 的 把 大 模型 这个 市场 能够 提升 到 一个 新的 高度。 甚至 是 保证 大家 所有人 的 一个 平等 发展 和 在 A I 这个 领域 安全 的 一个 最终 的 一个 方案。
所以 一方面 是在 大 模型 的 这个 技术 的 底层 的 逻辑 上, 我们 走 到了 一个 正确 路上。 另外一个 在 整个 的 生态 发展 上, 我们 也是 走 在 一个 正确 的 路上。 既然 我们 这个 目标 是 对的, 方向 是对 的那 我 这个 过程 是什么 样子? 你 跟 大厂 竞争, 你 有没有 足够 的 资源, 在 这个 过程中 保证 怎么样 不会 死 不死 掉。 所以 一方面 我们是 在 快速 的 在 一些 场景 下落 地, 一方面 我们 自己 也 在 谈 一些 商业 的 合作, 还有一个 就是 我们 同时 在 融资。 我们 也是 想 确保 这样 一个 在 中国 的 一个 非常 有 竞争力 的 一个 大 模型, 能够 很 好的 发挥 它的 价值。 我们 也是 希望能够 跟 其他 的 一些 商业 合作伙伴 一起, 能够 把 这样 一个 目标 正确, 生态 未来 会 繁荣的 一个 大 开源 大 模型 能够 做得 更大, 而 不是 恶性竞争。
其实我 觉得 刚才 说到 路线 就是 这 一块。 其实 transformer 核心 是因为 成本 很高, 是的, 人 太少 了。 其实 开源 生态 核心 就是 大家 的 智慧。 其实 就 更加 的 开放 的 时候, 有 更多 涌现出 更多 的 模型 的 底座 的这 一个 生态。 其实 我们 既然 已经 往 这个 最终目标 了, 就是 刚才 复杂度 空间 度 其实 会 出现 原来 更多 的 这种 架构, 很多 大厂 也会 去 关注 我们, 然后 去去 研究 我们的 这个 里面 核心 的 东西 到底是什么。 这个 过程 其实 也 促进 了 我们 整个 生态 里面 的 小伙伴, 然后 来去 认识 这个 模型, 然后 去 改进 自己的 东西。 这个 过程 是 希望 我们 希望 看到 的对, 就 transformers 是一个 偶然, 其实 我们 认为 叫 软 库 这个 方向 是一个 必然。
就是 刚才 聊到 开源 闭源 的 问题, 我 其实 在 想像 OpenAI 他 之前 是 讲 过, 就是 他 整个 团队 成立 之初 其实 讲 过 要 开源 了。 但 后来 做 闭源 是不是 还是 商业化 的 考虑, 就是 之前 烧 了 太多 钱, 想 先 把 钱 还 上。
我 刚好 前两天 也 问 了 陆奇 老师 三个 问题, 就是 他 怎么 看待 现在 的 这个 A I 的 生态 问题。 他 认 不 认为 未来 生态 是一个 开源 开放 分布式 的 一个 生态, 他 其实 是 非常 认可 的那 他 其实 提到 了 两个 点。 第一, OPPO A I 开始 之初 是 想做 开源 的, 为什么呢? 因为他 认为 A I 这个 东西 其实 威力 很大。 那 怎么样 保证 它 不 被 坏人 使用? 最大 的 好处 就是 让 所有人 都能 用, 对 吧? 那 所有人 都能 用 就是 坏人 用 的 时候 好人 也能 用。 那 这样的话 就会 达到 一个 平衡, 就是 为什么 到了 3.0到3.5 的 过程中, OpenAI 就 闭源 了 呢?
陆续 老师 给 我的 回复 是, 他 认为 可能 open I 产生 了 一些 别的 不同 的 看法。 他 认为 OpenAI 是一个 出自于 一个 非常 善意 的 一个 理由 来 做了 这样的 不同 的 决定, 就是 把 它 闭 园 了。 Open I 认为 在 他们 往 A G I 的 道路 上 发展 的 过程中, 发现 这个 工具 威力 实在是 太大 了。 在 一些 局部 环境 下 威力 太大 的 过程中, 即使 是我 到时候 能够 保证 好人 和 坏人 都有 这个 工具, 但是 一旦 坏人 使用 的话, 这个 损失 很难 挽回 或者 很难 避免。
当前 第三个 问题 就是 关于 AI 的 安全问题。 最近 弯曲 不是 提 了, 包括 马斯克, 包括 一些 A I 的 大佬 都说 要 停止 研究 A G I 这个 方向 的, 要 停 六个月 是 吧? 但是 我 觉得 这是 很 奇怪 的 一个 事情, 怎么 可能 停 得 下来 呢? 对 吧? 其实 大家 可能 对 A I 包括 甚至 接下来 的 A G I 这个 事情 的 严重性 可能 预料 的 还 不是 特别的 清晰。
其实我 个人 认为是 两点。 第 1GPT4是 被 劣 化 的, 是什么 意思 呢? 就是 它 要 对齐 人类, 所以 它 能力 是 比 他 应有 的 能力 要 差 的。 就是 相当于 是 它 其实 是 可以 有 更强 的 能力。 所以 大家 可以 知道 的, 一旦 GPT4 的 能力 不 受限制 的 时候, 它它 就会 会有 多大 的 一个 影响力。
另外一个 就是 我们 现在 的 最大 他的 直接 的 受影响 的 安全问题。 其实 现在 是 数据安全 问题, 就是你 没 发现 吗? 现在 所有的 数据 都在 被 一两家 公司 收走。
而且 这 里面 还 存在 说 如果 大家 都 是在 调用 的话, 你 难免会 输入 一些 东西。 你说 未来 word、 excel 这些 通过 N R P, 通过 这些 交互, 通过 A I 这 一层 交互 全都 过 一遍, 确实 想想 还 挺挺 有问题 的。
你 以前 是个 分布式 的, 以前 就 相当于 是 每个 B 端 公司 他 自己 在云端 有 云 服务。 我 每个 不同 的 APP 它 都 会有 对应 的。 另外 某 一家 创业 公司 的 这个 云端 服务 去 调用, 对 吧? 如果 它是 调 云 服务 的话, 它 不会 这么 集中 的 集中 在 一个 公司 或者 是 一两个 公司 的 大 模型 的 云 服务 上面。 就 相当于 是 一两家 大公司。
未来 可能 半年 到 一年 会 收集 到 全球 可能 有 50% 以上 的 人的 数据, 这 是一个 非常 恐怖 的 事情。 以前 我们在 移动 互联网 或者 互联网 的 时期, 如果 有 这样的, 比如说 我的 数据 在 一两家 公司 手上, 这 其实 已经 是一个 非常 严重 的 一个 数据 垄断 的 大 模型。 更 严重。 它 不 单单 只是 收 你 一部分 的 数据, 它 几乎 会 把 你 所有的 数据 收走。 你 像你 想想看, 微软 一下子 所有的 都 接 GPT, 无论是 你是 word 还是 你的 teams, 包括 他 现在 open I 自己 提供 的 ChatGPT 也 很多人 在 用。 包括 notion 其实 接 的 也是 GPT, 包括 我们 现在 学 语言 的 那个 德林, 多 邻国 他 也是 接 的 GPT。 相当于 是 他是 一个 O S 结果 这个 O S 是 在云端, 它 可以 实时 的 把 大家 所有的 数据 收上去, 我 感觉 是在 造 一个 神。
我们 一直 认为 怎么样 保障。 人类 跟 AI 的 一个 和平共处。 其实 之前 有人 提 过 一个点, 就是 怎么样 尽量 的 让 A I 能够 对齐 人类? 对于 人类 的 价值观, 对于 人类 的 能力, 说 的 怎么样 在 端上去 跑 大 模型 是 更容易 对齐, 结果?
Open I 的 做法 是 相当于 把 所有 人类 的 能力, 所有 人类 的 知识, 所有 人类 的 推理 能力 都 汇总 在 一个 设备 上 或者 是一个 服务器 上。 这个 不 叫 对齐 人类, 它 实际上 就是 在 造神 这些 方面。 另外 一方面 的话, 就是 对齐 人类 的 这个 过程 中有 可能 人 跟 机械 还 能够 平等 的 和谐 的 生存。 你 就 把 另外一个 A I 看成 一个人就好 了, 他的 能力 跟 你 类似, 现在 了 一个 云端 的 A I 掌握 了 巨大 的 数据量 的 一个 A I 它的 能力 是 远超过 你们 我们 人类 的对 吧? 我们 怎么能够 说 我 有 能力 去 控制 它, 或者 我怎么说 能够 说 我 未来 跟 他是 一个 平等 和谐 共处 的 一个 状态, 我 觉得 是 不太可能 的。 未来 不 像是 一个 很 安全 的 方向。
回到 刚才 前面 聊到 的 一个点, 我 觉得 挺 有 就是 所谓 平民化 也不 叫 平民化。 所谓 因为 开源 会 带来 的, 大家 都能 用上 这个 我 觉得 是一个 挺 新的 视角。 因为 就 我自己 之前 接触 来看, 因为 大家 经常 渲染 说 做大 模型 这个 事儿, 你 得 什么 A 100得怼 多少 个, 然后 你 得 有 大量 的 人 去 标, 然后 你 得 投入 多少 年 多少 财力。 所以 让人 觉得 这个 东西 天然 好像 就是 大厂 做出来, 大家 等着 用。
但是 听 你们 这么 一 讲, 我 觉得 确实 或者 路线 大家 知道 说 有有 这种 语言 模型 能够 做出 智能化 的 一个 工具 来。 那 可能 在 成本 上 真的 很 有 机会。 几年 内 比如说 真的 做到 在 端 上 就能 完全 实现 了, 我 觉得 这个 还是 挺 兴奋 的。 就 未来 很 可能 大家 他 都能 调 自己的 模型, 这个 和 我 去 调 一个 通用 模型 还是 不一样的 感觉。 这个 你们 会有 什么 预期 吗? 就 比如说 在 或者说 换换 个 角度, 你们 会 觉得 在 哪个 场景 上 就能 很快 看到 成果。
那 这个 其实 已经 成功了, 手机 上 是 可以 运行 的。 我们 预计 这个 ara 库 这样的 模型, 100亿的 参数 在 手机 上面 运行 是 没有 问题 的, 推理 速度 也 不会 很慢。 刚才 说 两个 问题, 第一个 要不要 自己 训练 一个 大 模型? 其实 很多 时候 既然 已经 开源 出来 了, 很多人 也 没 必要 去 训练 一个 模型 了。 但是 他 可能 会 像是 这个 stable diffusion 这样的 模型, 有 很多人 去 调 风格, 就是 做 这个 laa。 这个 其实 更 成本 更 低 了。 你 可能 过段时间 各个 云 服务器 厂商, 他们 就会 提供 这样的 1个小时 2个小时 跑 一个, 或者说 半天 跑 一个 这样的 一个 小的 一个 模块。 这个 模块 和 大 模型 合在一起, 你 就能 运行 出 属于 自己的 这么 一个 又能 有 安全性, 然后 又能 有 风格化, 也能 达到 自己的 目标 这么 一个 应用 场景。 今年 以内 就可以 了。 我 觉得 不过 现在 落地 的 速度 还需要 有 基建, 各方面 的 这个 配套设施 的 一个 合并。
我 非常 同意 刚刚 刘校 说 的, 一方面 我们 自己 这个 模型 已经 在 手机 包括 电脑 上面 已经 在 跑 了。 而且 也 在 跟 一些 其他 的 硬件 厂商, 一些 终端 在 聊, 包括 机器人 X R L T 等等。 对 我们 认为 未来 这 一块 的 机会 非常 大。 另外一个 就是说 是 我们 刚刚 也 提到, 中局 其实 是 这个 算法 要 跑到 芯片 上 的。 乐观 估计 可能 是 3到5年, 他 会 跑到 一个 专用 的 芯片 上。 算法 的 整个 框架 稳定, 包括 它的 工具 链 相对 比较完善 的话, 我们 认为 这个 概率 是 非常 高 的。
你们 现在 会 比较 期待, 或者说 你们 有 预期 用 现在 的 模型 能有 哪些 杀手 级 的 场景 吗? 你们 现在 有 在 观察 或者说 有什么 途径 在在 找 这些 场景 吗?
你 想想看 这个 R N N 和 这个 transformer 差别 N 有一个 状态, 这个 状态 保存 了 非常 长, 十万 字 以上。 或者 像 人脑 一样, 可能 有 几天 前 的 信息, 到 今天我 可能 总结 归纳 成了 一个 状态, 然后 我 这个 状态 来 回答 你的 问题, 这个 其实 更 像是 人的 思考 逻辑, transformer 很多 时候 是要 去 仔细 的 观察 上下文, 就是 像是 我在 做 阅读 理解 一样的 时候, 那 这 两个 趋势 下面 就是 它 会 揉 合在一起, 我 估计 会 是 这么 一个 过程。
其实 说到 这个 长 的 context 来说, 我们会 切入 这个 写作 领域。 其实 我们 认为 小说 其实 是 最难 的。 如果 大家 理解 这个 写作 工作者 的话, 它 其实 是一个 创造 的 过程, 是一个 创造 世界 的 过程。 或者说 他他 要 首先 从 一个 大纲 去 推演 整个 世界 怎么 运行, 好多 的 人物 关系 在 里面, 然后 穿插 这些 结构, 还要 做 里面 所有的 细节 的 场景 的 转变。 内容 创意 就是 一个 非常 人 最有 价值 以及 最难 的 事情。 我们 觉得 这个 R N 就是 把 库 这样的 模型 是 将要 能够 去做 这样的 事情 的。 就是 这个 可以在 更长 文本 里面 去 理解内容, 然后 在 更长 里面 去 常 关联 一些 逻辑。 就像 刚才 说 的, 你 这个 刚 开始 特别 长 的 时候, 昨天 的 那个 信息 到 今天 的 时候, 我 能够 启发 我 去做 信令 一个 事情, 那 这个 是一个 会 应用 到 这个 写作 小说 领域 里面。 虽然 可能 有些人 觉得 这 很 粗浅, 这 小说 有什么, 但 实际上 这个 其实 挺 难 的对。
其实 刘潇 说 了 一个 关键 的 点, 我们 现在 是 纹身 纹, 对 吧? 它 最难 的 其实 是 生存 小说。 其实 你 再 把 它的 那个 模态 变 一下, 它 有可能 会 变成 什么 呢? 就是 电影 的 脚本 有可能 会 变成 视频, 甚至 变成 一个 虚拟世界。 我们 其实 是 沿着 这条路 往前走 的。
回过头来 说, 我们 认为 现在 我们 这种 模型 能够 快速 的 应用 落地 的 场景 有 很多 点。 第一个 就是 它 能够 在 一些 新的 终端, 包括 我 刚刚 说 的 X R 和 机器人 上面, 能够 大大的 提升 这 两个 终端 的 能力。 让 这 两个 终端 从 以前 的 是一个 100万的 一个 销售量, 它 有可能 会 变成 上 亿台。 我们 可能 基于 A I 的 大 模型, 能够 让 X R 和 能 让 机器人 能够 做到 每年 的 出货量 上 亿台。 我们 现在 的 这个 A I 有一个 巨大 的 能力, 就是 它 可以在 极 低 的 成本 下 能够 生成 大量 的 内容, 而且 是 优质 的 内容。
那 它 在 X R 里面 能 做什么? 其实 X R 现在 的 困境 就在于 它 端 到 端 并没有 闭环。 首先 第一 它 没有 足够 好的 内容, 导致 没有 足够 人 多少 人 愿意 去 消费 它, 或者 去 买 它的 服务, 导致 底层 的 供应链 不愿意 投入。 大家 都 是在 关注 这个 市场 什么时候 能够 打开, 而 打开 的 关键点 就在于 怎么样 以 极 低 的 成本 在 这个 端 上 生成 高质量 的 内容。
而 A I 就是 这个 生产力 工具。 比如说 我 看到 这个 衣服, 他 可以 认出 这个 衣服, 然后 告诉他 你 穿上 它是 什么 样子, 他 多少钱。 然后 甚至 生成 一段 小视频。 你 穿上 它 或者 是你 看到 一个人 上面, 你可以 直接判断 出来 这个 人是谁, 你 跟 他的 关系 是什么。 然后 你 上次 跟 他 聊天 是 聊 了 什么, 而且 是以 三维 的 数据 叠加 上去 的。
你 看到 一个 建筑, 他 可以 帮你 分析 出来 这个 建筑 总共 有 多 高 多少 层, 上面 有 哪一个 公司 是你 认识 有 认识 的 人, 你 直接 可以 联系 他, 然后 甚至 他 可以 帮你 引导 你 怎么 去 那 家 公司。 你 会 发现 你 未来 带来 这个 X R 的 这个 设备 以后, 只要你 睁开眼睛, 你 就 已经进入 到了 一个 互联网。 你 闭上眼睛 你 才 离开 这个 互联网。 所以 你 联网 的 时间 跟 手机 相比, 相当于 是 大大 提升 了。 在 这个 过程中, 那你 就有 更多 的 消费 数字世界 内容 和 服务 的 机会 了。
这就是 增量 市场。 我 觉得 这个 确实 挺 有意, 因为我 总 感觉 X R 是 可能 还 面临 一些 硬件 设备 问题。
我 觉得 不是 硬件 设备 问题, 现在 问题 就是 没有人 认为 X R 值得 购买, 尤其是 C 端 现在 的 困境 在 这儿, 现在没有 量 导致 芯片 没有 办法 以 很低 的 成本 流片 了, 因为你 量 不够 大。 我们 看到 以前 P C 端 手机 端的 这个 量 是以 亿 为 单位 的, 结果 到了 X R 这 变成 了 10万, 最多 上百万 为 单位 的。 然后 光学 那边 也是 看着 这个, 我知道 的 是 很多人 现在 这个 算法 都 有了。 只是 说 我 为什么 要 投入 砸 钱 进去, 我看不到 这个 市场。 而 看不到 这个 市场 的 原因 是 消费者 在 这个 领域 看不到 增量 价值。
都是 以前 的 在 二维 的 互联网 上 就有 的 内容, 对 吧? 看电影、 玩游戏, 三维 的 内容 还是 太少 了。 比如说 游戏, 比如说 我们 看到 P S R 的 那个游戏, 现在 还是 很少, 我也 不想 买 它, 为什么呢? 我 为什么 要 单独 为了 那 几个 游戏都 买 一个 设备, 而 设备 也不 便宜, 而 AI 就是 一个 生成 内容 的 巨大 的。
生产力 工具。 可能 他他 缺 的 是一种 新的 内容, 这个 新的 内容 能 让 大家 觉得 有一个 体验 差。 他 可能 确实 在 硬件 上 可能 有 一些 体验 的 不一样的 地方, 但是 这个 体验 差 并没有 那么 大, 可能 也能 玩游戏。 但是 你说 他在 这 里面 这种 沉浸式 玩游戏, 能比 我们 现在 在 游戏机 上 或者 在 电脑 上 玩 能 好 多少? 这些 可能 都 没有 差 的 那么 大。 但是 如果说 他 真的 通过 A I 能 实现 那种 以前 完全 实现 不了 的 真实感, 或者说 以前 体会 不到 的 一些 东西。
那那 确实 还 挺 有意思 的。 这个 才是 我们 一直 在 说 新的 互联网, 不是 所谓 的 web 3。 其实 真正 的 新的 互联网 是一个 空间 的 互联网, 是 基于 三维 四维 数据 的 一个 互联网。 它是 有 增量 的 价值, 增量 的 内容。 而且 这个 增量 的 内容 让 用户 有 巨大 的 动力, 从 一个 计算 终端。 迁移 到 另外一个 计算 终端 上, 就 跟 当年 P C 以前 都在 P C 上上网。 为什么 现在 大家 愿意 用 手机 上网? 它 带来 的 价值 是 完全 不一样的我 我的我 的 手机 能够 基于 地理位置, 能够 给我 提供 不同 的 内容 和 服务, 而且 我的 场景 也 大大 扩大 了, 场景 大大 变大 了, 内容 也 完全 不一样 了, 提供 的 服务 也 跟 之前 P C 端 有 巨大 的 增量 价值。 下一个 终端 也是 一样的, 而 这个 终端 带来 的 给他 带来 价值 的 生产力 工具 就是 A I 就是 这 一代。 你可以 认为 很大 一部分 是 这一次 A I 中间 的 一部分 叫 generate V I 可能 给 X 带来 了 一些 增量 的 内容。
我 觉得 还有一个 方向 是 关于 硬件 芯片, 就 未来 的 这个 大 模型 的 平民化 或者说 个人化。 你 之 前提 了 一个 观点 说 他 会 在 芯片 层面 也会 有 实现, 这个 你是 怎么 观察 的, 或者 有 哪些 想法?
我是 这样 看 的。 首先 第一个, 大家 因为 现在 得了 OpenAI, 提供 的 是一个 云 服务, 其实 大家 把 这次 的 A I 还是 像 上 一代 的 A I 一样, 看成 是一种 云 服务。 其实 这一次 的 大 模型, 我 更 倾向 于 把 它 看成 是一种 类似 于 操作系统。 如果 还是 一个 以前 的 云 服务 的话, 相当于 是我 一直 要 为 这个 云 服务 长期 的 去 买单。 虽然 我自己 手上 有 算 力, 但是 实际上 我 还是 要 去 云端 去去 买 这个 云端 的 G P U 产生 的 A I 的 这个 大 模型 的 AI 能力。 我是 在 不断 的 被 渔夫 厂商 收割。
未来 的话 如果 有一个 非常 好的 一个 基础 的 大 模型, 它 在 压缩 完 以后, 它 可以在 不同 的 终端 去 落地, 用 端 上 的 一个 算 力。 比如说 我 买 了 一个 手机, 或者 买 了 一个 其它 的 一个 硬件 设备, 它 端 上 有 很 好的 G P U 或者 C P U。 在 G P U 或者 是一个 一个 异构 的 芯片 上面 跑 了 一个 大 模型。 那 实际上 我是 买 了 我 这个 终端 上 的 这个 设备 的 算 力, 在 用 我的 这个 大 模型。 那 我 相当于 是 我不需要 再 为 这个 云 服务 付钱 了, 就 相当于 是 它是 一个 分布式 了, 分布式 推理, 甚至 将来 的 那个 训练 也有 可能 是 分布式 的。
从 这个 角度 来说, 其实 后面 的 芯片 也会 有 很多 定制 化 的 场景, 可以 定制 到 模型, 让 它 效率 更高。 本身 raa 库 它 这个 模型 的 设计 也是 更 符合 这个 ask 芯片 的 编 可编程 的 这么 一个 芯片 状态。 就是 这个 里面 有 存 算 一体 的 这么 一个 逻辑, 能够 很 好的 利用 芯片 的 能力 去 里面 的 这些 模型 的 推理 的 记忆 和 运算。 这个 上面 来说, 也 其实 加速 了 芯片 的 能耗 降低。 然后 各方面 的 性能 的 提升, 就 也能 更快 达到 了 刚才 卢 老师说 的 这个 S R 这么 一个 到 端的 这么 一个 设备 的 可能性。
其实我 更 想说 的 是, 未来 我的大 模型 的 能力 是 平民化 的, 是 能够 掌握 在 每个人 手上 的。 而 不是说 我需要 实时 的 付费 给 某 一家 公司, 我 才能够 获取 到 这个 服务。
这个 思路 和 方法。 比如说 在 海外 有没有 类似的 在座 的 团队, 或者 有没有 什么 你们的 新的 观察。
海外 也有 不少 人 尝试 在 用 软件 去 训练, 对, 尤其是 小语种 这 一块, 就 最近 的 论文 里面 也有 很多 新的 发现。 也 跟 这个 软 酷 的 内核 很 像 了, 也很 有 潜力。 不过 从 长远 上 来看, 就是 大家 肯定 是一个 互相 助力 的 过程, 然后 也有 多 模态 的 这个 空间 在 里面。
我可以 提 我 另外一个 观点, 不见得 是 对的。 我 认为 现在 OpenAI 这条路, 其实 是 他 把 整个 A I 能力 放在 云端。 最大 的 目的 其实 是 为 收 数据, 是 为了 扩充 它 这个 基座 大 模型 的 一个 数据量。 包括 他 做 plug in, 包括 他 跟 他的 合作伙伴 签 的 协议, 你 要 用 我的 TPT4, 你 必须 要把 数据 全部 给我。 对他 所有 最 近几个月 做 的 事情 都是 为了 收 数据, 但 这些 都 不是 终局。 一方面 是 他 收到 足够 多 的 数据 以后, 他 很有可能 是 会 把 模型 压缩 在 端 上 放, 这是 未来 的 一个 发展 的 一个 必经之路。 因为 这个 东西 就是 要 落到 端 上 的, 否则 他 没有 不 具备 经济性。 第二个 就是 当 这些 C 端 和 B 端 意识到 数据 的 价值 和 数据 交给 其他 公司 的 一个 资 的 一个 一个 利益冲突 的 情况下, 他 将来 可能 不会 这么 轻易 的 把 数据 交给 某 一家 商业 公司。
比如说 OpenAI所 以这 实 际上是 一 个打一 个时 间窗 口。 从 去年 8月份 到 去年 年底, 我们 发现 像 微软, 包括 其他 的 一些 他 合作 或者 投资 的 公司, 在 快速 的 接入 GPT。 而且 在 短短的 三个月 时间 一下子 全面 的 释放出来。 这 不 像是 过去 弯曲 的 一个 这些 科技 公司 的 一个 做事 方式。
对, 就 整体 上 还是 商业 考量。 去 参加 陆奇 老师 那个 活动, 就 当时 你 跟 他 那次 沟通 聊到 什么? 非常 有 启发 的 观点。
刚刚 也 其实 也 说 了 两点, 一个 是 关于 是否是 开放, 为什么 OpenAI 先 开放 后 闭源 对 吧? 第二个 问题是 关于未来 算法 在 端 上 是 怎么 跑 的。 陆续 老师说 了 非常 清晰。 他说 他 认为 新品 如果 你的 算法 要在 芯片 上 跑 的话, 要 看你 这个 算法 的 一个 成熟度。 如果 你的 算法 完全 不成熟, 要 大量 的 重构, 大量 的 改 的话, 他是 建议 是 直接 跑 G P U 上面 的那 第二 就是说 如果 你的 算法 已经 逐步 的 在 成熟, 有 一部分 不需要 改 了, 有 一部分 还需要 改 的话, 他 建议 是 跑 F P G I 上面。 如果 你的 算法 已经 非常 确定 了, 已经 稳定 的 情况下, 他是 可以 说 可以 跑 专用 芯片 上面。 他他 说 现在 有 一家 公司 有 这种 A I 的 专用 芯片, 就是 google。 Google 的 G P U 其实 本质 上 就是 专有 的 AI 芯片。 我 觉得 这点 对 我们 也是 非常 有 启发 的, 就是 效率 跟 迭代 周期 怎么样 去 配合, 怎么样 去 互相促进。
另外 第三个 问题 就是 安全 的 问题, 其实 大家 都 对 安全 非常 忧虑。 而 我们 也 看到 了, 现在 虽然 湾区 那边 一直 在 讲 responsible A I 对 吧? 但是 我们 并没有 看到 一个 完整 的 框架。 我们 认为 现在 A I 的 能力 边界 已经 超出 了 大家 的 想象。 当然了 他 能 提高效率。 另外 一方面 他 也能 做 很多 危害 人类 的 事情。 怎么样 保证 它是 为 人类 服务 的, 而 不是 未来 人类 为 他 服务 的对。
其实 不同 的 文化 价值观 下面 也会 影响 A I 安全 的 定义 和 判断。 其实 这个 软件 也是 想 去做, 比如说 本土 的 中国 自己的 价值观 体系 的 东西 去 输出。 因为 OpenAI 其实 是 美国 价值观, 这 东西 不存在 对错, 但是 我 觉得 是一个 是 有一个 碰撞 过程 的。
我 就 引入 一个 终局 的 想法, 就是 其实我 觉得 到 芯片 以后, 其实 是 极大 的 提升 了 生产力。 提升 生产力 之后, 大家 要 做什么? 就是 这些 人 我们 可能 工作 就 不太 需要 去 参与 了, 那 我们 要 做什么? 其实 是一个 非常 值得 有 想象 空间。 所以说 其实 我们 更多 的 时候 可以 去 探索 人类文明 的 边界。
然后 刚才 我们 一直 聊 人类 对齐, 人类 对齐 其实 是一个 平均化 的 过程。 这是为什么 就 十几年来 这些 对话机器人 最最 难受 最 头疼 的 地方 就是 这个 准确性。 怎么 对齐 这些 人类, 就 把 这个 多样性 给 去掉 了, 因为 我们 可能 不能 太 超出 人类 的 认知 范畴, 或者 他 想要的 答案 是 很 有限 的。 其实 在 这个 A I 领域 里面, 他 可能 会有 一部分 的 领域 会 垂直 到 人类文明 的 边界 的 探索。 从 科学、 文明、 艺术、 文化 都 会有 一个 新的 探索 的 维度, 这也是 一个 很 好的 一个 方向。 这个 终局 下面 可能 人人 就 不再 去 需要 去 工作, 而是 做 更多 的 探索 人类文明 边界 的 事情, 或者 享受人生 的 过程。 这样的话 我 觉得 也是 一个 比较 好的 一个 终局。
大家 因为 最近 就像 我 前面 聊到 的, 关注 现有 的 这些 大 模型 关注 的 比较 多。 所以 潜意识 里 觉得 大 模型 可能 就是 一种 路径, 或者说 未来 它 就是 一种 生态。 但是 从 跟 你们 交流, 我 确实 感知 到 整体 的 这个 大 的 路线 和 方向 其实 也是 在 探索 的。 我 觉得 这个 非常 有意思。 我 其实 还 挺 关心 一个 问题, 就是 你们 接下来 有 哪些 非常 明确 的 要 做 的 事儿 吗? 就 类似 比如说 你们 要招 人 或者 什么, 也 对 你们 接下来 公司 的 规划 大概是 什么样 的。
首先 第一个 我们 正在 融资, 第一轮 融资 对 我们 也 在 接触 投资人。 我也 希望 无论是 那个 机构 还是 个人 投资者, 我们 都 欢迎 来 聊。 如果 您 对 个 非常 有 价值 的 开源 的 大 模型 感兴趣 的话, 对 或者 愿意 了解 的话, 另外 一方面 我们在 开源社区 再 招 一些 开发者 在帮 我们 去 优化 现有 的 开源 大 模型。 包括 做 工具 链, 包括 做 压缩。
第三个 是什么 呢? 就是 我们 也 欢迎 一些 看中 这个 大 模型 的 特点, 比如说 它 在 端 上 能够 快速 的 落地, 在 端 上 部署 大 模型, 以及 在 一些 to b 的 场景 能够 私有化 部署 等等 这种 场景。 感兴趣 的 一些 客户 做 X R 的, 作为 机器人 的, 做 L T 的, 甚至 手机 厂商, 我们 都 欢迎 来 聊 一 聊 我们 能 做什么。 5月9号 我在深圳 也 举办 了 一个 闭幕会, 就是 探讨 A I 大 模型 和 硬件 的 结合。
我们 最近 有 拿到 深圳 研究所 的 一个 赞助 性 的 钱, 但 这个 钱 不是 给 我们的, 是 他们 自己 要 投入 做 基础 建设 的。 相当于 说是 给 大家 一个 信息, 把 一个 线索 就是 希望 做 这个 模型 压缩, 在 显卡 优化 这方面 的, 就 移植 到 端 上面 的 这些 应用 的 这个 场景 的 就 实现 都 可以 联系 我们我们 有 这个 方式 让 你们 去 对接 这个 研究所, 去 参与 这个 项目 的, 他们是 有钱 能 拿到 的。 然后 一是 这个 硬件 的 优化, 包括 显卡 的 运行 的 优化, 到 这个。 苹果 端的 手机 和 A M D, 然后 移动 端的 还有 web G L, 然后 还有 就是 这个 压缩 模型, 量化 压缩 int 4 int 三 这样的 U I 这 一块 产品, 就是 怎么 去 使用 去 交互。 同时 想 去做 开源 生态 的 小伙伴 都 可以 联系 我们我们 有 这个 Q Q 群, 也有 discount 生态, 就是 国外 的 社区。
在 关注 大 模型 或者 关注 ai 这 一波 的 朋友, 你们 有什么 建议 吗? 就 比如说 我 现在 是一个 可能 了解 比较 少 的 一个 新人, 那 接下来 我 你们 建议 是, 比如 我 去 开源 的 社区 去 找 一些 模型 自己 搭 着 试试看, 还是 说 我 现在 多 试用 一下 产品, 还是 说 怎么样, 你们 会有 什么什么 建议 吗? 这方面 第一个 建议 是。
如果 是一个 创业者 或 开发者 的话, 首先 第一个 你 要 关注 的 是 客户, 你 要 关注 的 客户 他 需要 什么。 如果你 不是 一个 想 跌 投身于 大 模型 这个 研发 和 创大 模型 的 创业 的 一个 开 或者 的话 你是 想做 应用 或者 想做 infer 的话, 你 最先 要 关注 的 是 客户, 包括 你的 市场 规模, 包括 他的 有没有可能 平台 化。 那 他的 需求 到底是什么? 这个 需求 满足 这样 需求 的 需要 什么样 的 大 模型。
另外 还有一个 建议 是, 我们 要 一定要 搞清楚 什么东西 是 最 根本 的, 最具 决定性 的, 不会变 的, 那个 东西 它是 最 重要 的。 就 比如说 我们 为什么 说 认为 我们 这个 大 模型 有 竞争 优势? 就是 因为 它的 空间 和 时间 的 复杂度 上 已经 做到 极致 了, 我 认为 这个 是 决定性 优势。 另外 一方面, 即使 是 现在 我们 拿出来 去做 一些 黑盒 测试, 我们 也要 在 同样 的 一个 水平线上, 比如说 在 控制变量, 比如说 在 同样 的 参数 集, 同样 的 数据量, 以及 在 没有 做 过 任何 的 犯错 的 情况 下去 做 对比。 看 新生事物 的 时候, 关注 他的 本质。
就是 这 是一个 很 好的 时代。 我 觉得 然后 如果 我是一个 个人 开发者, 或者说 我是一个 想 参与 这个 事情 的 人我 觉得 开源 拥抱 开源 是一个 非常重要 的 事情。 卢 老师说 的 这个 用户需求 之 上去 建立 一个 开源 的 一个 底 胚子, 会有 更多 的 人 参与 进来。 这个 促进作用 是一个 能 让 这个 事情 向 生长, 就是 不断 生长 的 一个 过程, 我 觉得 是 非常 吸引 人的, 而且 能够 创造 更多 的 声望, 然后 还能 创造 更多 的 价值, 让 大家 能 用 起来, 然后 大家 都 可以 多 试一试。
不同 的 模型 到 这个 R W K 软 库 这样的 模型, 它 其实 迭代 特别的 快, 里面 有 好多 这个 东西, 其实 你 自己 不去 动手 去 敲 代码, 你 很难 理解 里面 的 精髓, 或者说 受 利 者 初衷 是 怎么 想 的。 将来 可能 没有人 在 被 机器 都 替代 写 代码。 但是 这个 学习 的 过程 会有 一个 发明创造 的 过程, 是 非常 有趣 的, 然后 也 非常 的 吸引 人的 过程。 就是 借用 彭 老师说 的话 来说。 前面 一段 是 我说 的, transformer 是 偶然, 酷 is all you need, 就是 库 是 才是 你 需要 的, 不仅仅是 attention is all you need。
行, 我们 也 期待 看 未来 你们的 模型 能 落地, 给 大家 一些 更新 的 启发。 没问题。
好的 好啊 好啊, 我们的 我们 几个 模型 其实 在 hugin face 上都 有 托管, 如果 大家 有 兴趣 的话 都 可以 去 试用 一下。
今天 就 先聊 到 这儿, 感谢 二位, 感谢 罗旋 和 刘 销, 感谢。 好, 拜拜。
欢迎 在 小宇宙 苹果 podcast 的 订阅 和 收听 三环, 也 欢迎 在 评论 区 留言 交流。 如果 喜欢 三 五环 的话, 也 恳请 您 在 苹果 podcast spotify 或者 喜马拉雅 留下 你的 宝贵 好评, 下期 再见。
我看 黑。 When the day so will stand up. You know in the lot so much.
We don't want you know. 我要 我 喂喂。 The sun is home.
Become the year.