欢迎 收听 硅谷 101, 这是 一档 分享 当下 最 新鲜 的 技术 知识 与 思想 的 科技 博客。 我是 红军。 在上 一期 我们 讨论 了 AIGC 是 如何 生成 内容 的, 还有 我们 自己的 一些 使用 体验。
在 节目 播出 之后, 我 收到 了 非常 多 的 邮件 还有 反馈。 其中 包括 硅谷 最 顶级 的 AIGC 巨头 论文 的 一 作者 的 交流 邀请。 还有 一些 中美 AIGC 创业 公司 的 创始人。 除此之外, 我也 收到 了 非常 多 从 用户 角度 的 询问。 比如说 有 web 3公司 的 创始人, 他们 就 希望能够 用 这个 软件 来做 一些 设计, 节省 一些 设计师 的 成本。 当然 也有 一些 车厂 在 探索 能 不能用 AIGC 来做 一些 营销。 非常感谢 大家 的 交流 和 询问, 也 让 我 有了 更多 的 想法。
同时 我也 在 想, 为什么 这个 领域 现在 这么 火? OpenAI 的 C E O sam altman, 他的 一段话 可能 也会 是 这个 问题 的 答案。 他说 如果你 真的 制作 了 A G I, 基本上 就像 打开 了 一个 水龙头, 然后 说出 你 希望 公司 赚 多少钱。 这 句 话 大概 的 意思 就是说, 如果说 通用 人工智能 真的 实现 了, 那 赚钱 就 完全 不是 问题 了, 想 赚 多少 有 多少。
这 期 节目 我们 还是 从 一个 比较 现实 的 问题, 就是 中国 跟 美国 AIGC 的 创业 格局 开始 聊起。 当然 我们 也会 聊到 刚刚 提到 的 OpenAI, 还有 最近 比较 火 的 stability 的 这些 行业 独角兽。 那 最后 我们 也会 讨论一下 sam altman 说 的 通用 人工智能 到底 有没有可能 实现。
欢迎 这 期。
我们的 嘉宾, 首先 是 大厂 AIGC 战略 的 胡家 康。 Hello 家康 你好。 Hello 大家好。
我是 家康, 目前 在 某 大厂 做 AIGC 以及 大 模型 相关 的 战略 工作。
还有 一位 是 中国 知名 加速器 AIGC 方向 的 负责人 靳 英杰, jack 进。 Hello jack, 你好。
大家好, 我是 jack。 在 中国 的 加速器 看 AIGC 看 比较 久 了。
欢迎 两位。 其实我 最近 看到 在 这 两天 AIGC 方向 特别 火, 也有 两家 创业 公司。 它是 连续 两天 都有 新闻 曝光 说 他们 拿了 1亿美元 的 融资。 一个 是 stable diffusion 背后 的 母公司 stability, 它是 拿了 大概是 1.01亿美元, 它的 估值 现在 是 10亿美元。 这家 公司 应该 也是 在 我没有 确定 它的 创建 时间, 可能 也不 太久。 另外一个 公司 是 叫做 jasper 它 也是 做 AIGC 这种 文字 内容 生成 的, 就是 他 刚刚 拿了 1.05亿美元 的 融资, 现在 的 估值 是 15亿美元。 我们 先 讨论一下 为什么 说 AIGC 在 这个 时间点 它 这么 的 火。
好, 我 来 分享 一下, 最近 正好 在 学习 stable diffusion 这 一块。 然后 他 创始人 是 一 卖, 然后 是一个 巴基斯坦 一 在 伦敦 学习 的 一个人, 他 之前 是一个 对冲 的 基金 的 经理, 还 蛮有意思 的。 他 看到 未来 是 说 A I 是一个 需要 super data, super talent 和 超强 的 算 力 支撑 的 一个 属于 企业 的 一种 资产。 然后 就像 OpenAI, 像 谷歌, 他们 会 拥有 这样的 能力。 所以 他 希望 把 这件 事情 做成 一个 开源 的, 让 世界 有 平等 A I 能力 的 一个 机构, 有点像 一个 去中心化 的 foundation model。
刀 意 刚 出现 的 时候 就是 dari two。 在 去年 年底 很多 非 A I 背景 的 人 开始 关注 到 A I 作画, 大约 是 去年 年底。 但是 A I 作画 真正 出圈 或者 疯狂的 火 起来, 其实 是在 今年 的 基于 stability 的 stable diffusion 推出 来 之后 的 一个月, 一个月 之后 A I 作画 就 遍地开花 了, 包括 在 photoshop 上 出现 的 A I 的 生成 的 这种 功能。 因为 stability stable diffusion 它 是从 模型 的 权重 上 就 完全 开源, 所有 都 可以 自己 做 部署 二次开发。 而 今天 我们 看到 很多 大 模型 fda model 是 没有 这样 开源 的那 开始 的 时候, 就像 模型 的 推理 时间 只能 在 NVIDIA G P U 上去 做 推理, 可能 需要 5秒钟。 但是 现在 不同 的 社区 的 成员 的 努力 下, 在 stable diffusion 里边 可以 把 它 压缩 到 1.8秒。 也可以 在 apple 的 M1M2 的 CPU, 包括 intel 的 CPU 上都 可以 去做 推理。
随着 用户量 的 一个 增加, 他们 开始 做 一些 大企业 的 服务, 包括 获取 更多 的 这种 数据 独特 的 I P 比如说 迪士尼 和 任天堂, 就像 任天堂 的 A I 部门 一样的 一个 感觉。 而 这个 增长速度 是 非常 可怕 的这 一轮 他们 据 我 了解, 就 获得 了 15倍的 一个 over subscribe 对外 估值 讲 的 是 10亿美元。 但 其实 有人 开 到了 40亿美元 的 offer 还没有 进去。
那 他们 为什么 只 融 1亿呢? 我不知道 他们的 模型 是不是 自己 研究 的。 因为 像 这种 大 模型, 它 其实 背后 靠 的 是 堆 算 力, 它是 需要 很大 的 成本 去 铺 这个 算 力 资源 的。 因为我 今天 还在 跟人 聊, 就 有人 会 觉得 这 是一个 资金 密集型 行业, 那 他 为什么 只 拿 1亿美元 呢?
好 问题, 他们 其实 整个 团队 是 相当 扁平 的 团队, 百 人的 人数 里面 也 只有 一个 ph 他们的 stable diffusion 这个 model 是 跟 慕尼黑大学 的 一个 实验室 做出来 的。 包括 今天 他 也 跟 me journey 这 款 非常 火 的 文生 图 的 产品 里面 的 开发者 一块儿 在 研究 这样的 一个 事情。 因为 它是 开源 的, 所以 他 会 跟 大量 的 机构 去 合作, 去 推 这样的 模型。 但是 一 mate 他 自己是 放了 很多 钱 进去 的, 然后 包括 stability fusion。 Stability 背后 其实 是 有 4000张A 100的算 力 的, 他们 算 力 是 非常 够 的。 而 从 学术研究 的 角度, 他们 会 跟 一些 机构 去 合作, 推 一些 开源 的 一些 模型。 所以 这个 阶段 可能 还 不需要 那么 多 的 钱。 但是 我猜 明年 这个 估值 应该 还能 翻 十倍, 那个 时候 可能 会有 再 十倍 的 钱 了。
你 刚刚 提到 他们 跟 OpenAI 的 ready to 最 主要 的 区别 是 stable diffusion, 相当于 他们是 把 底层 开源 了。 OpenAI 是 没有 开源 的 是吗?
这 一块儿 可以 加 康 看看。
O K A I 的 模型, 不管 是 GPT3 还是 大 youtube, 其实 都是 没有 开源 的, 都 是以 A P I 调用 的 方式 作为 它 主要 的 商业模式 去 运行 的。 所以说 和 stable diffusion 的 这种 做法 形成了 一个 鲜明 的 对比。 D L E two 大概是 是 22年, 就是 今年 4月份 的 时候 就 已经 推出 了。 但是 推出 之后 在 影响力 的 推广 上, 一直 是 没有 到 和 stable division 推出 之后 一个月 的 那个 声量 完全 是 不可 比 的。 我 觉得 这 背后 也是 开源 的 力量。
那 他们的 整个 A P I 的 公开化 是 什么时候 的 事情? 因为我 印象 中 最 开始 OpenAI 它 不管 是 GPT three 还是 它的 dally two 这个 模型, 你 开始 去 申请 它的 那个 A P I 的 调取, 你是 需要 写 一个 申请书 的。 因为我 自己 也 申请 过, 就 他 那个 申请表 上 还要 写 你的 目的 用途, 你是谁, 就 各种 介绍, 就 有点像 选 创业项目 一样。 它 其实 可能 是要 去做 一个 安全性 的 考量, 就是说 你不会 用 它 来 危害 人类, 或者 做 假新闻, 或者 做 钓鱼 网站。 但是 我是 在 想 整个 这个 的 火爆 除了 stable diffusion, 跟 它的 整个 A P I 接口 的 全面 开放 是不是 也有 关系? 对, 这 只是 一个 假设。
对我 觉得 是 很 有关系 的, 包括 刚才 jack 也 说过, 大概是 stable diffusion。 在 7 8月火 的 时候, 九月份 我们 可以 看到 国内市场 其实 是 已经 出现了 一大批 创业 公司。 而 这些 创业 公司 做 的 文生 图 应用 基本上都 是 基于 stable diffusion 去做 的。 所以 看到 它的 开放 能够 驱动 整个 应用层 的 生态 繁荣的 增长, 并且 会 驱动 很多 创新 的 应用 出现。 在 大家 二 推出 的那 一段时间, 其实 我们 看到 的 文生 图 的 一些 创意 应用 还 比较 少。 但是 在 8 9月份 以来, 我们 看到 了 文生 图 可以 用 在 很多很多 不同 的 场景, 这 也 激发 了 非常 多 的 想象力。 而且 我相信 再从 Q 4开始, 我们会 看到 更多 创新 的 应用 形态 出来。
我 给 大家 解释一下, 文生 图 其实 是 可能 是 业内 的 缩写 叫法, 它的 全文 表述 应该 是 叫做 文字 生成 图片。 我 注意到 还有 一款 产品 叫做 Midjourney, 刚刚 jack 你 也 提到 了, 它 跟 d fusion 它是 有 一些 关系 的这 两个 产品 的 关系 是什么?
它是 独立 的 两家 公司。 然后 me journey 它 据 我 了解 好像 是 不做 这种 foundation model 的, 没有 投入 那么 多 的 算 力, 可能 在 个别 的 领域 会有 一些 fine tuning。 但是 它 生成 图片 的 一个 能力, 大部分 可能 是 基于 stable diffusion 的。 也就是说 me journey 的 科研人员 或者 团队 成员 会非 close 的 跟 stable diffusion 的 团队 成员 一起 去 探索 这个 图片 生成 在技术上 有什么 可以 提升 的 一个地方。
然后 me journey 上面 有, 据 我 现在 了解 好像 是 几百万 的 一个 用户, 600万左右。 就 家康 这边 如果 有 一些 不同 的 数字 也可以 correct, 他的 收入 也是 几百万美元 量级 的。 前 一段时间 在 可能 一些 设计师 的 一些 圈子 里边, 建筑师 的 圈子 里边, me journey 还是 非常 火 的。 也是 前 一段时间 在 nova A I 出来 之前, 大家 用 的 最 广泛 的 一个 文生 图 的 工具 之一。
我 为什么 特别 提到 这 款 产品? 就是我 发现 在 图片 领域 me journey 还是 很 有 影响力 的。 然后 我自己 是 这 两天 试用 了 一下 darling two 跟 Midjourney, 觉得 Midjourney 他的 整个 的 细节 的 颗粒度 更好, 然后 他的 画风 更好 看, 这是我 自己的 一个 感受。
Mini Jerry 的 情况 我也 补充 一下, 其实 它 和 stable diffusion 包括 大 E Q 你可以 理解 为是 两种 不同 层级 的 公司。 Stable diffusion 包括 大力 two, 我们 理解 为是 模型 层。 他们是 做好 不管 是 开源 的 模型 还是 A P I 的 接口。 他们是 希望 在 自己的 模型 的 基础 上去 长出 一些 比较丰富 的 应用 生态 的这 是 这 一类 公司 的 定位。 然后 mini Jerry 你可以 理解 为 它是 应用层, 它是 基于 比如说 stable diffusion 或者 大于 二 的 模 行, 他 再去 做 一些 金条, 或者说 做 一些 应用 形态 出来, 直接 面向 C 端 用户 或者说 一些 专业 用户 的 群体。 所以 他们 两者 会有 这样 一个 区别。
然后 mini Jerry 目前 我 认为 它是 在 应用层 海内外 做 的 最好的 一家 公司。 同时 也 听说 他是 确实 取得了 比较 好的 一个 商业 收入。 他 比较 成功 的 点 有 几个 地方。 一个 是 它 植根于 disco 的 这个 社区, 在 前期 的 冷启动 阶段 获得 了 比较 大 的 红利。 然后 同时 在 这种 社区 的 运营 机制 下, 比如说 它 用户 出的 图 和 prompt 都是 可以 展现 给 大众 的。 大家 可以在 这种 机制 下 比较 快 的 去 迭代 自己 出 图 的 效果。 同时 它的 整个 初创 团队 的 成员, 其实 会 和 社区 用户 会有 非常 高频 的 一些 接触 反馈, 再去 迭代 它 模型 的 效果。 所以说 他 即使 不是 去做 最底层 的 大 模型 那 一层, 他 去做 应用层 上 的 技术 的 优化, 他 也可以 做到 比 竞 品 要好 很多很多。
用户 在 试 的 时候, 可能 在 mini jury 比较 容易 就可以 出来 一张 比较 好 效果 的 图。 在 其他 的 平台 上 要 去做 大规模 这种 prompt 的 调试。 所以说 mini jury 也 给 我们 看到 了 这种 应用层 能够 不管 是在 技术 的 壁垒 上, 还是 在 这种 产品运营 的 一些 特色 上, 有 做 的 好 比较 好的 一个 基础 存在。
对对对, 我 发现 它的 使用 跟 其他 不太 一样。 其他 是 我们 有一个 网站, 然后 我们在 网站 里面 输入 关键词 去 出 图。 他们 要 出 图, 你 先 得 加入到 他们的 discord 里面。 他的 discord 是一个 群, 你可以 看到 群 里面 所有 用户 的 请求, 可以 看到 别人 写 了 什么 关键词, 别人 出的 图 是什么。 我 感觉 这样 做 一个 是 很 有 启发, 另外一个 是 它 其实 是一个 互相 激励 的 一个 机制。 确实 产品 上 是 挺 有 新意 的, 它 还是 比较 社群 基础。 你们 有 试 过 什么样 的, 比如说 一句话 生成 图片 或者 生成 文字 这 一类 的 产品 吗?
其实我 自己 用过 也就 两三个。 然后 me journey 有用 过, 国内 也 用过 六一 这种。 当时 就是 玩 一 玩 试一试, 就 尝鲜 怎么样, 感觉 还是 蛮有意思 的, 有点 很 surprise 这种 感觉。 比如说 我 当时 说 了 一段 诗, 他 就 真的 生成 了 那 一段 式 的 一个 画面。 有一个 湖, 然后 有 一堆 鸟, 还 挺 impressive 的, 因为我 自己 也 画画, 所以 这个 事情 在我看来 会有 一个 比较 大 的 一个 冲击。 一方面 它是 很多 人是 兴趣 的 探索, 就是 他 释放自己 的 一个 创造力 creativity。 另外 一方面 是 情绪 的 一个 抒发, 就 包括 我 去做 一些 尽职调查 的 时候, 你 会 发现 大部分 同学 其实 都是 好奇 想 试一试。 少部分 同学 是真的 拿 这个 去做 应用。 比如说 游戏 的 原画师。
其实我 自己 也是 比较 喜欢 玩 纹身 图。 可能 最早 的 时候 是用 海外 的 刚刚 说 的那 几款 产品, 但是 毕竟 会有 不 方便 存在, 可能 还得 连 V P N 或者说 调整 为 英文 的 输入。 所以说 也会 用 比较 多 国内 的 产品, 包括 six pen 道 梦 师, 还有 百度 的 文心 一言 等等 的。
我自己 用 它 有 几个 点, 一个 是 我会 用 它 做 头像, 现在 我自己 的 工作 头像 就是 用 纹身 图 来做 的, 我会 生成 一些 比较 有 创意 的 东西, 比如说 带着 钢铁侠 头盔 的 小狗, 还有什么 赛博朋克 风格, 我 就会 觉得 把 它 做我的 头像 特别的 酷。 有的 时候 我会 很想 去 生成 一张 很 好的 图, 我 就会 不断 的 去 调 自己的 prompt, 就 看 能不能 达到 一个 让 自己 满意 的 效果, 在 这个 过程中, 我会 觉得 有一点 像 玩游戏 的 感觉, 就 为了 通关 去 提升 自己, 同时 也有 一种 抽 盲 盒 的 感觉, 生成 了 一张 可能 同样 的 prot。 有的 时候 真的 是 能 生成 一张 让 我 觉得 蛮 惊艳 的 图, 所以 有的 时候 我 空下来 会 把 它 当 一个 玩具 去 玩。
我们 刚刚 其实 有 在 讨论, 像 大二 跟 stable diffusion 它是 作为 基础层 的, mid journey 是 作为 应用层 的。 大家 觉得 这个 领域 里面 还有 哪些 比较 值得 去 聊 的 公司? 我们 要不要 先 系统 的 跟 大家 讲 一下 整个 行业 跟 现在已经 比较 知名 的 一些 创业 公司 做 一些 梳理。
OK 我 这 一块 从 国内 国外 讲 一下, 就 国外 的 图片 生成。 刚才 我们 提到 stable division v journey, 还有 一家 最近 比较 出圈 的 是 novo 到 A I 它 生成 二次元 图片 效果 非常 逼真。 然后 我们 华人 还 搞 了 一个 叫 元素 手册, 就 把 里边 值得 去 放进去 的 pump t 都 积累 出来 一个 成为 一个 P D F。 比如说 火元素, 然后 生成 一个 什么 画风 的 一个 二次元。
在 图片 生成 领域 这 几家 是 很 不错 的。 国内 刚才 提到 six pen, 包括 西湖 大学 的 盗梦 者, 都 是在 图像 领域 做 的 很 不错 的。 在 应用层 这 一块, 用户量 也 基本上都 是在 10万以上 的 一个 级别。 Six pen 有 一些 是 需要 充 会员, 比如说 你 需要 加速 生成, 生成 的 效果 更好, 背后 调用 更好 的 一个 model。 是 会 收费 的。 西湖 大学 的 盗梦 者, 我 用过 一次 转发 就可以 获得 这 张 图片, 暂时 看来 是 不 收费 的, 用户量 都在 十几万。 然后 有 一家 是 放 出来 demo 效果 还 挺不错, 但是 好像 还没有 开放 的 是 P I mate, 来自 上 科大 的 一个 团队。 目前 最好的 应用 确实 看来 是 表情包。
然后 最近 出了 二十多个 类似的 小 程序, 其实 都是 上面 套 着 一个 产品 的 壳子, 背后 可能 是 stable diffusion 这种 在 做 生成。 然后 我们 也 投 了 其实 两家, 其中 一家 的 技术 能力 还是 挺不错 的。 不单单是 可以 做 文字 到 图片 的 简单 生成, 你 还 可以 去做 定制 化 的 编辑。 比如说 就像 刚才 说 的, 长 得 像 家康 一样的 钢, 这些 都 可以 去做 生成。 然后 从 简笔画 再到 细节 填充, 然后 未来 也可以 做 视频。
你 提到 的 这些 在 应用层 的, 比如说 6 pen 这种, 他们是 用 中文 输入 就可以 了, 还是 也 需要 用 英文?
他们是 中文 输入 就可以。
的那 他们的 底层 平台 是什么?
他们 有 调用 不同 的 几种 平台。 所以 中间 有时候 是 translation。
对, 因为我 知道 像 OpenAI 跟 stability 他们 现在 都是 纯 英文 的。
是的, 就 比如说 你可以 先 把 中文翻译 成 英文, 不知道 家康 那一边 是 怎么做 的。
我可以 补充 一下, 其实 目前 国内 的 应用, 既然 他在 国内 做, 肯定 是要 要求 用户 输入 中文。 有 两种 做法, 一种 做法 就是 基于 海外 的 模型 加 一层 翻译, 这 可能 是 大部分 创业 公司 的 做法。 然后 还有 一层 就是 国内 主要 一个 是 百度, 它 有一个 叫 earning V L G 的 模型。 一个 是 智源 研究院, 有一个 code view 的 模型。 这 两个 模型 从 它 诞生 开始, 就是 中文 作为 输入, 图像 作为 输出 的。 所以说 这种 端 到 端的 中文 再去 生成 图像 的 模型, 其实 会对 中文 语义 的 理解 会 更好 一些。
首先 因为 这个 模型 它的 训练 数据 本来 就是 来源于 中文 世界 的。 但是 其实 很多 海外 的, 不管 table diffusion 还是 大于 2, 他们的 训练 数据 是 global 的 数据。 所以说 在 模型 训练 做出来 的 一开始 的 时候, 他的 对 中文 的 理解 就 会好 一些。 应用 的 时候 毕竟 加 了 一层 翻译, 又 会对 意图、 对 意思 的 理解 有 一层 失真, 所以说 也会 不足 这种 纯中文 模型 的 效果。
我们 分开 底层 和 应用层 两个 层面 来 分析。 如果说 我们 来看 底层 架构 的 时候, 其实 你 提到 了 国内 有 百度。
还有 一家 叫 什么 智源 研究院。 智力 的 力, 源头 的 源。
对, 百度 和 智源 研究院 他们是 基于 中文 去做 的, OpenAI 跟 stability 它是 基于 英文 去做 的这 两种 之间 你 怎么 去 评判 一个 模型 做 的 好 跟 不好, 底层 是看 什么的, 他 怎么 去 看 它的 核心 竞争力。
明白, 其实 在 学术界 会有 一些 比较 公允 的 指标, 大家 直接去 在 那些 同样 数据集 上去 跑 去 测 这个 指标 的 高低, 就可以 比 出 大家 的 好坏。 但 其实 在 生成 任务 上, 会 相比 其他 的 A I 类 任务, 这种 客观 的 指标 更难 一 以 概 全。 因为 你知道 一个 图像 的 好坏 是一个 很 主观 的 事情, 生成 类 任务 一个 比较 大 的 特点, 所以说 大家 实际 去 测 的 时候, 还是会 做 类似 用户调研, 或者说 大规模 的 问卷。 然后 去 看。 比如说 同一个 prompt 在 不同 的 平台 上去 生成, 然后 我们会 分 很多 的 维度。 比如说 他 有没有 把 语义 理解 清楚, 有没有 把 其中 想 表达 的 东西 表达出来, 有没有 把 事物 之间 的 逻辑关系 给 表达出来。 再看 这个 图 好不好, 看清 不清晰, 这个 图 有没有 逻 之间 自相矛盾 的 地方。 会有 一个 很 丰富 的 维度, 我们 去 调研 它的 效果 怎么样。 其实 这个 工作 我 觉得 也是 大家 去做 模型 层 去 优化 效果 的 时候 的 一个 比较 核心 的 点。 不管 是 做 模型 层 还是 应用层 的 公司, 一定要 基于 在 自己的 平台 推出 之后, 大量 的 这种 用户调研, 来 找到自己 模型 目前 效果 中有 披露 的 一些 细节 问题, 然后 去 定向 画, 最后 才能 打磨 出 比较 好用 的 模型。
我 理解 是不是 这 样子 的, 其实 我们 要 用 文字 来 生成 图片。 首先 我们 需要 理解 文字 表述 的 是什么 意思, 关键词 是什么, 名词 是什么, 动词 是什么, 实词 是什么, 虚词 是什么? 然后 是 你说的 逻辑关系 就是 这一点。 其实 在 OpenAI 在 做 大力 two 之前, 它 其实 还有 一款 很大 的 开源 应用 叫做 GPT3。 它 其实 就是 一个 整个 的 语义 的 生成 工具。 然后 因为 有了 这个 工具, 它 可以 很 好的 去 理解 语义。 他 甚至 可以 去 写文章, 写 出来 人都 很难 去 分辨 这个 是 机器 写 的 还是 人 写 的 这样的 一个 文章。 我 理解 他 这个 是 一个系列。 但是 我们在 谈到 比如说 中国 的 应用 的 时候, 除了 文字 生成 图片, 它 也会 有 文字 生成 文字 或者 文字 生成 新闻稿、 文字 生成 营销 语, 文字 生成 推广会 有 这样的 一些 模型 在 吗?
对, 其实 您 这个 理解 特别 好。 我们 现在 讨论 大 模型 的 时候, 往往 会说 多 模态 或者 跨 模态。 是因为 他 对 每 一种 模态 的 理解 其实 都是 息息相关 的。 你 对 文字 的 理解 和 生成 做得好, 也会 有利于 你 做 文生 图, 甚至 以后 有利于 做 纹身 视频、 纹身 3D模型 等等 的。 所以 我们 回 看 这些 机构 的 时候, 你 会 发现 OpenAI 一开始 是 做 文字 相关 的 应用, 然后 去做 文本 生成 图片。 其实 国内 的 我 刚刚 说 了 两家, 百度 和 智源 都是 一样的 逻辑。 他们 一开始 都是 最先 去 发布 了 文字 生成, 包括 文本 理解 相关 的 大 模型, 再 切入 到 这个 领域 会 是一个 比较 顺畅 的 逻辑。
接下来 就是 应用层, 怎么样 去 评判 一个 应用层 做 的 好 跟 不好, 评判 应用层。
好 和 不好。 目前 看 基于 GPT3 做出来 的 一个 应用, 市面上 比较 知名 的 一个 是 jasper 的 AI, 另外一个 是 copy 的 A I 最近 国内 有 文章 去 报道, jasper 最近 的 A I R 是 9000万美元 了, 挺 impressive 的。 两三个 月 之前 我知道 他们是 A R R 在 5000万美元 左右, 今年 应该 是 到达 1亿美元 之上, copy A I 现在 是 1000万美元 之上。 目前 这 两个 做 的 都是 给出 一些 关键词, 给出 一个 你的 目的。 然后 我给你 生成 一个 比如说 K O L 来 用 的 一个 种草 文章。 从 应用层 上 的 好坏, 你可以 直接 从 它的 revenue 上 体现 出来。
目前 在 美国 比较 知名 的 是 这 两家。 在 国内 的话 有 阿里 的 Alice mind, 然后 有 写作 湖, 华为 的 盘古。 我们 也 投 了 一家 叫 深研 科技, 对 标 jasper 基于 清华 和 智源 的 模型。 民间 还有 一些, 比如说 meta 科技 做 法律文书 的, 兰州 科技 做 金融 领域 的, 彩云 小梦 做 自动 续写。 但 目前 在 国内 的 落地 上, 其实 都 比 不到 国外 的 revenue。
核心 底层 模型 的 能力 还没有 完全 的 释放出来。 另外 就是 大厂, 比如说 百度, 百度 可能 是我 目前 看 下来, 至少 在 文字 对话 模型 play to 那个 上面 做 的 效果 是 最好的 一个 模型。 但是 应用 其实 还没有 铺开, 各个 产品 经理, 各个领域 的 负责人, 他们 还没有 把 这样的 技术 用 在 自己的 落地 场景 上。 这 还有一个 gap。
从 模型 层 其实我 还想 补充 一点, 就是 GPT3去 衡量 一个 模型 的 能力, 有的 时候 我们 可能 还 可以 直接 看 它的 模型 参数, 这一点 可能 家康 会有 一些 不同 的 看法, 然后 也可以 听听 家康 怎么看 模型 参数 这件 事情。 我 今天 跟 国内 的 大厂 一圈 聊 下来 之后, 比如说 刚才 我们 提到 的 是 百度 和 智 元 智源 相当于 是 偏 体制内 或者 是 政府 支持 的 一个 机构。 对 标 智源 的 还有一个 深圳 的 idea lab。
从 大厂 的 机构 里边, 我们 有 百度、 字节、 腾讯、 阿里、 华为 都在 做大 模型 相当 的 工作。 在 国内 最早 文生 图 是 阿里 和 盘古 做 的 会 比较 早, 最早 是 M6 阿里 出的 这个 模型, 当年 云栖 大会 上 我 还 特地 跑 过去 去 找 了 一下。 但是 后来 这 两家 在 生成 模型 上 投入 的 时间 或者 精力 和 资源 都 相对 少了 一些。 最近 感觉 腾讯 近期 开始 对 大 模型 这 一块, 多 模态 这 一块 进行 布局。 百度 是 目前 整个 市场上 看 下来, 大厂 展露出来 的 工具 层面, 可用性 层面 做 的 是 最好的。 字节 更多 我 可能 服务 的 是 内部 的 一些 需求。 包括 我们 今天 如果 在 抖 音 上去 做 一个 抖 音 特效, 用 文字 生成 一些 图片, 那 这个 就会 是 字节 他们 做 的 一些 产品。 但 从 衡量 模型 能力 的 一个 角度 上, 其实 我们 目前 看到 最大 的 一个 模型 之一, 就是 谷歌 那个 lamda 是 千亿 模型, 最近 还有一个 5000亿模型, GPT3是 一个 百亿 模型。
GPT3不是 1750亿个 参数 吗?
对, 是 1750。 对。
它是 也是 一个 千亿 级 OK。
国内 目前 出来 的 很多 都是 百亿 的 一个 模型。 然后 我会 经常 跟 他们 去 argue, 我说 有没有 必要 去做 一个 千亿 级别 的 模型。 但是 今天 这个 时间 节点 可能 很少 有 大厂 能够 直接 拿出 这么 多 钱 来 趁 一个 这样 量级 的 模型。
Google lamda 今天 我们 可能 直接 看到 的 就 是从 我的 角度, 就是 它的 对话 能力 要 比 GPT3好 很多。 GPT3 原来 只能 是 十轮 对话, 你 十轮 对话 完了 之后, 它 就 会有 一些 逻辑 不 通顺 的 点。 而 google 你可以 拉姆达 跟 他 一直 聊, 但是 因为他 没有 特别 开放, 所以 具体 他 能 在 什么 场景 去 落地 和 应用, 目前 还 看 的 不是 特别 清晰。 不知道 家康 对 这 一块 有 什么样 的 一些 观察。 比如说 从 你们的 角度, 为什么 你们 没有 去做 一个 迁移 的 模型? 短期 或者 是 google 这个 迁移 的 模 他 有 哪些 不一样的 一些 能力。 然后 你们是 怎么看 这一点 投入 和 产出 的。
其实 清华 有一个 团队 叫 open B M B, 面壁 智能 还是 面壁 科技。 他们 其实 有 出过 一个 大 模型 参数 的 一个 榜单。 我 对 他们 统计 的 非常 好。 然后 里面 其实 是 显示 了 随着 不同 同 时间段, 不同 公司 发 了 哪些 大 模型, 他们的 参数 规模 是 怎样 的。 其 基于 他们 那个 数据 去做 分析 的话, 可以 看到 几个 很 明显 的 趋势。 一个 是 确实 是 大 模型 的 参数, 达到 了 五千 多亿 参数 这个 量级 之后, 大家 都 没有 再 往 上 凸 了。 今年 22年 的 时候 新发 的 一些 大 模型, 要么 就是 在 千 亿左右 参数 的 规模, 要么 就是 可能 针对 某个 细分 场景 做了 一些 的 优化, 要么 就是 他 更 强调 自己 那种 跨 模态, 甚至 跨 到了 比如说 那种 游戏, 强化 学习 图 等等 这样 些 领域 了。 所以说 大家 在 参数 数字 上 的 这样 一个 追求, 其实 是 没有 再进一步 的 提高 了。
为什么 会有 这个 现象 呢? 就 我 个人 理解 就是 去 提高 参数 的 边际收益, 其实 已经 相对 没有 那么 大 了。 因为你 想 一下 从 千亿 参数 提到 万亿 参数, 你 所 需要 的 算 力 规模 的 量, 其实 是 会 比 这个 十倍 量 要 需求 更高 的。
是 指数 级 的对 吧?
可能 没 到 指数 级, 但是 会 比 十倍 要 高。 因为你 对 机器 之间 的 通信 水平 会 受 相应 的 影响。 所以说 不是说 你 对 十倍 的 机器 就 能够 训 出 十倍 参数 的 模型, 会有 这样的 问题 存在。
同时 效果 的 提升 其实 是 没有 相应 的 那么 显著 了。 我们 可以 看到 比如说 百亿 到 千亿 去做 生成 类 任务。 就是说 文本 生成, 对话式 生成 等等 任务 的 时候, 其实 效果 是 有一个 显著 的 提升。 但是 千亿 级 参数 的 模型 再 往 上 拔 的 时候, 其实 提升 的 空间 比较 有限, 可能 更多 不是 靠 对 参数 可以 解决 的 了。 这是 生成 类 任务, 像 NLP。 还有 一类 典型 的 任务 是 理解 类 任务。 比如说 去做 文本 的 分类, 信息 的 抽取 等等 的这 类 任务。
我们 看到 从 百亿 到 千亿 去 跨越 的 时候, 其实 它的 边际 效果 的 提升 已经 不太 多了。 所以说 我 真正 去做 产业 应用 的 时候, 到底 是不是 必须 要 用 一个 非常 大 参数 的 模型? 目前 其实 是 打 一个 问号 的这 是 对于 模型 参数 这个 角度 的 一个 思考。
我们 去 看 那个 数据 还有一个 比较 有意思 的 一个 现象, 就是 基本上 22年 开始 进场 的 玩家 已经 是 定性 了, 21年 可能 大家 都 冲 了 一波。 很多 没有 进入 大 模型 相关 领域 的 公司 进入 这个 领域, 包括 22年 上半年 有 hugging face 等等, 他们 也都 进来 了。 但 从 下半年 再 开始, 就 都是 一些 已有 的 机构 去 推 新的 大 模型, 没有 一些 新的 机构 加入 这些 战场 了。 也可以 说明 这个 领域 确实 是 两个 特性。 一个 是 它是 一个 基础设施 的 特性, 我们 肯定 是 不需要 太 多家 的 基础设施。 第二个 就是 它是 一个 资金 密集型 的 一个 特性, 并且 它 有 比较 强 的 规模 效应。 所以说 你 在 已经 那么 卷 的 阶段, 你 再去 新 切入 这个 市场, 其实 价值 已经 相应 没 那么 大 了。
现在 中国 的 参数 训练 集 用 的 最多 的 是 哪 一家? 就是你 刚刚 的 那个 榜单。
根据 公开 资料 的 披露, 目前 中国 厂商 推出 的 大 模型 参 数量 最大 的 是 阿里 的 M6大 模型, 但是 是 达到 了 万亿 级别。 但是 它的 万亿 级别 背后 对应 的 是 它 其实 是用 了 一种 稀疏 化 的 模型 的 方式。 你可以 理解 为 它的 数字 会 比 GPT3 的 千亿 模型 有 虚高 的 成分 存在。
为什么 万亿 会 比 千亿 要 虚高 这么 多 呢? 还是 不如 GPT3 的 那个 模型 呢?
对, 就是 他们 背后 用 的 模型 的 结构 不太 一样。 M6用 的 是一种 系数 化 的 方式, 就 很 容易 把 参数 堆上去。 比如说 以 同等 的 算 力 和 数据, M6 就可以 做出 一个 表面 参 数量 最大 的 一个 模型。 但 实际 去 测 效果 的 时候 并 不能 做到, 因为 它是 万亿 级 模型, 它的 效果 就会 比 GPT3 的 好 很多, 或者 比 其他 中文 模型 好 很多。 就是 我们 从 效果 层 的 一些 公开 数据 上 是 没有 看到, 因为 它是 万亿, 所以 它 效果 要好 不少。
其次 其次。
就是 一批 千亿 模型, 就 包括 智源 和 清华 的 几个 实验室, 做了 类似 像 G L A M 的 模型, C P M 的 模型 等等。 包括 百度 的 文心 的 earnings 3.0 模型, 其实 也是 达到 了 千亿 的 规模。 华为 的 盘古 大 模型 也是 达到 了 千亿 的对 所以说 其实 一些 主流 的 玩家 都 是要 去 触 达到 千亿 这个 参数 规模 的, 这个 是 很 有 必要性 的。 因为 就像 我 刚刚 说到 的, 你 去做 生成 类 任务, 其实 千亿 是一个 门槛。
那 在 中 我 做到 千亿 模型, 它 大概 花 的 比如说 服务器 跟 训练 数据 的 这些 成本 大概是 在 一个 什么样 的 量级?
可能 我们 公司 的 数据 不太好 说, 但是 肯定 是 起码 得 上 千张 卡 这个 规模。
这是 我们 从 模型 训练 的 数据 的 级别。 从 实际效果, 就是 刚刚 其实 你 也 提到 了 像 阿里 的 M6 的 这个 模型。 它的 效果 虽然 用了 万亿个 参数。
但是 因为 稀疏 化 的 这种 架构。
对, 但是 因为 用了 稀疏 化 的 架构, 所以 最后 他的 效果 可能 还 达不到 GPT3 的 这个 效果。 那 其他 几家 的, 比如说 智源 的 这个 模型 跟 百度 的 模型, 他们的 效果 最后 怎么样?
其实 目前 这 一类 做 文本 生成 的 大 模型, 在 中文 领域 的 效果 还是 大家 都是 远远 不及 GPT3 的。 这个 背后 可能 有 很多 原因, 一个 是 本身 对 中文 的 理解 和 对 英文 的 理解 还是 生成 都是 两个 体系, 而且 中文 的 难度 是 更大 的, 这个 大家 应该 都有 共识。 然后 另外 就是 海外 不管 是 OpenAI 还是 stability, 他们 都是 有 一种 更加 创新 与 灵活 的 组织形式。 这个 jack 待会儿 也可以 去 详细 介绍 一下。 对, 他们 其实 是 聚集 了 一种 开放 利益 互享 的 方式, 聚集 了 一批 顶尖 的 科学家, 然后 一起 去做 贡献。
但是 国内 的话, 目前 这个 模式 可能 还没有 一个 很 成功 的 案例 出来。 对方 相当于 是以 那种 很小 的 杠杆 可以 撬动 巨大 的 力量。 但是 国内 可能 还是 依靠 于 各个 大厂 大型 公司 自己的 科研人员 去做 这个 事情, 在 对比 下来 难度 还是 有一点 大 的。 第三点 就是 其实 还是 在 资源 的 投入 上 有 区别。 虽然 国内 的 公司 也 投入 了 很大 的 资源 在 做 这个 事情。 但是 相比 海外, 比如说 stability 4000张A 100的卡 的 这样 一个 量级 的 投入 来说, 作为 一个 国内 的 大型 公司, 他 很难 去 把 这个 故事 给 讲 圆的。 内部 的 一些 机构 会 翻译 类似 这种 10亿美元 估值 的 故事。
我 觉得 还有一个 比较 重要 的 点, 就是 国外 GPT320年 推出 之后, 较快 的 形成了 一个 创业 生态, 一大堆 产品 去 用 它的 A P I, 然后 去 得到 用户 的 反馈 来 优化 模型。 这个 事情 在 国内 其实 目前 以 文本 生成 这个 角度 来说 的话, 还没有 形成 一个 可以 和 国外 相媲美 的 应用 生态。 所以说 对于 做 技术 的 人 来说, 他 得到 的 反馈 和 优化 的 空间 也会 相对 的 少 一些。 所以说 在 这种 技术 迭代 的 加速度 上, 会 比 国外 相对 的 落后 一些。 但是 我也是 非常 期待, 就是 因为 大家 现在 特别的 关注 这个 领域, 有 很多 的 创业者 进来, 各类 科技 公司 去 提供 很 好的 基础设施。 在 这种 正循环 的 促进 下, 我们 其实 有 希望 在 明年 看到 国内 能够 做 起来 类似 海外 的 这样 一个 应用 生态 起来 的这 是 大家 都 希望 看到 的对。
而且 我 觉得 现在 海外 的 几笔 融资 还是 这种 密集 的 融资, 可能 也 对 整个 的 应用 生态, 包括 对 国内 的 促进 也是 会有 一些 正向 的 意义 的对。 Jack 你 要不要 给 大家 介绍 一下, 为什么 同样 大家 都 是一个 千亿 级 参数 的 训练量 OpenAI 它 能把 这 事儿 给 做成 了? 为什么 他 能够 吸引 到 整个 行业 比较 顶级 的 科学家? 你 给 大家 介绍 一下 这家 机构。
好, 我 先 对 上 一个 问题 有一个 简单 的 补充。 至少 在 国内 的 文字 模型 上, 能够 对 标 牵引 模型 GPT3 的 其实 还没有 出现。 百度 ernie 的 这个 模型 好像 是 多 模态 的 一个 模型, 不知道 他在 文字 生成 这 一块 是不是 有 GPT31样的 一个 能力。 另外 就 是从 lambda 和 GPT3 的 一个 区别 上, 最近 我 好像 听到 一些 信息 是 lambda 在 机器人 领域 有 一些 比较 有意思 的 落地, 可能 是 机器人 的 指令 生成 l no, 但是 机器人 是一个 高危 行业, 就是 比如说 你 要 家用 机器人, 然后 去 厨房 切菜, 对 吧? 一旦 你的 逻辑 像 GPT31样 不 严谨, 有可能 机器人 冲 到 卧室 把 你 给 砍 了, 那就 出问题 了。 但是 lamda 如果 他在 对话 逻辑 上 做 的 比较 严谨, 那 是不是 在 机器人 这样的 一个 领域, 它的 生存 逻辑 也会 同样 的 更 严谨 一些。
就此 很多 大厂 可能 会说, 我们 今天 还 没法 验证 千亿 模型 或者 是 更大 的 模型 要 比 现在 的 百亿 的 文字 模型 强 在哪里。 所以 暂时 都 没有 这方面 去 注入 资金 和 资源。 但 假如 说 有一个 机器人 能够 跟 你 去做 很 自由的 开放性 的 对话, 同时 还 可以在 家里 边 帮你 当 保姆 的话, 在我看来 就是 挨家挨户。 如果 都 有一个 这样的 一个 机器 的话, 这 确实 是一个 10万亿级别 的 一个 市场 了。 家康 不知道 那个 百亿 模型, 就是 earning 的 那个 模型, 是不是 也有 文字 生成 的 一个 能力。 对。
earning 其实 前后 推出 了 百亿 和 千亿 参数 规模 的 模型, 他们 都是 有 文字 生成 的 能力 的。 只不过 就是现在 确实 整个 不管 是 应用层 的 生态, 还是 从 模型 层 和 GBD3 的 差距 上, 目前 还没有 达到 可以 和 海外 媲美 的 一个 状态。 我 觉得 这 一块 是 需要 提供 模型 的 模型 层 和 应用层 去做 更多 的 共创 和 碰撞, 这样 才能 进入 一个 正循环。
对 这点 我 还 蛮 认同 的。 因为 sam outman 就是 OpenAI d founder, 他 之前 是 yc 的 第二任 president。 OpenAI 跟 Y C 之间 有一个 合作, 就是 联合 投资 和 加速 早期 基于 GPT3 的 这个 生态, 在 中国 还没有 看到 这样的 一个 生态 的。 所以 我们 现在 在 的 这家 加速器, 其实 在 尝试 去 build up 类似 这样的 一个 生态, 以 投资 加速 P M F 的 一个 形式。
就 回到 刚才 jane win 的 关于 OpenAI 和 在 中国 做 A G I 这件 事情 的 这个 问题。 目前 我 看到 了 一个 信息, OpenAI 能否 在 中国 发展 出来, 或者 是 一家 A G I 公司 能否 在 中国 发展 出来? 影响 这件 事情 的 要素 在我看来 会有 三个。 第一个 是 人才 的 密度 高度, 第二个 是 资本 的 goodwill, 第三个 是 背后 政策 的 一个 支持。
从 2020年 开始, 我 开始 寻找 中国 有 能力 做 OpenAI 的 人。 先 去 拜访 了 一些 老师, 包括 藤 校 的 教授, 大厂 的 大 模型 的 一把手。 但是 会 发现 中国 A I 地位 比较高 的 老师, 也 可能 是我 认知 浅薄, 感觉 他们 都 有点 skeptical Open AI300个 人 大部分 其实 都 不是 C S 的 P H D。 中国 在 各个领域 学术 交叉 的 人才, 就 学术 人才 的 交叉 的 密度 可能 还 不太 够, openness 还 不太 够。 比如说 像 OpenAI d founder sam, 还有 他 合伙人 伊利亚, 他们 都是 三十多岁 顶尖 聪明 的 年轻人。 在 中国 有 这样的 事业 的 和 sparse 的 年轻人, 至少 我 遇到 的 还是 蛮 少 的。 比如说 最近 我在 尝试 找 卖 炭 里面 的 有一个 C V 大牛。 我不知道 这样的 高度 的 年轻人 是不是 有 机会 在 中国 去 立 的 这样 一件 事情, 可能 人才 上 还是 要 比 美国 落后 3到5年。
另外 一方面 从 openness 上, 就 刚才 我们 提到 5000亿和 1000亿, 为什么 没有人 再去 堆 1万亿 了? 刚才 家康 提到 特别 好的 一点 就是你 成本 是 非线性 的, 每个 G P U 之间 的 一个 通讯 成本 会 大幅度 增加。 那 怎么 去 解 这一点 呢? 或者 从 低 性 原理 上 它 应该 是 什么样 的? 我们 人脑 有 860亿个 神经元, 有 1.7万亿左右 的 snapp sis 这 1.7万亿 snapp sis 可以 某种意义上 对应 我们 模型 的 一个 参 数量。 也就是说 GPT3 做了 一个 参 数量 是 人脑 10分之1 倍 的 一个 模型。 如果我们 真的 想 对 标 人脑 的 这种 链接 能力 的话, 没准 我们 还 真的 需要 一个 1.7万亿 参数 的 一个 模型。 那你 不光是 需要 从 数据 算法 层面 去做 革新, 你 还需要 从 硬件 方面 去做 革新。
怎么 让 G P U 之间 打破 这样 冯诺依曼 架构 的 墙壁。 这一点 可能 目前 跟 中国 机构 聊起来, 还没有 感觉 哪家 在 这 一块儿 做了 布局 很 开放 的。 这里 边 require 可能 类 脑 架构 或者 对 认知科学, 或者 是 脑神经 科学 相关 的 一些 科学家 跟 模型 的 科学家 老师 联合 跨 组。
在 大厂 里面 就 直接 是 跨部门 的 一种 合作 了, 这方面 看到 的 还是 相对 少 一些 的那 在 OpenAI 里边 就 300个人, 来自 各种各样 的 一些 领域, 化学 的、 生命科学 的、 物理学 的、 数学 的, 有 顶尖 的 C E O 和 科学家 去 带领 着, 都很 年轻。 里面 分成 很多 组, 然后 这些 组 不单单是 都 去 冲 这个 AIGC 的, 对于 他们 这件 事情 来说 风险 是 其实 极高 的, 然后 它 落地 的 收益 又是 相对 少。 就是 做 O K I 这家 公司, 美国 是 有 一部分 资本 是 有 这方面 的 一个 耐心 的, 他 融 了 包括 像 微软 给 他们的 这个 资金。 国内 你 很少 有 机构 愿意 去 赌, 一个 团队 两年 的 时间 什么 商业化 的 东西 都 没 做出来, 就 做了 一篇 paper。 但是 这家 机构 就是 为了 AGI1路 走到 黑, 这里 边 deep mind 和 OpenAI 都是 这样的 一个 气。 国内 的话 就会 比如说 我 要求 你 半年 给我 产生 点 东西, 有一个 什么 模型 之后, 我 就 立刻 需要 落地 的 一个 revenue 的 一个 回报, 来 证明 这件 事情 有 价值。 但是 像 OpenAI, AIGC 只是 它 阶段性 通往 A G I 上 踩到 的 一个 机会。 有 部分 精力 他们 放在 产品化 上。
但是 内部 研发 可能 花了 很多 精力, 还是 往 智能化 上去 做 的 更多 的 模态 来 更好 的 硬件, 更 智能 的 这种 training。 对比 国内 的 这些 机构 来说, 我们 拿到 的 经费, 包括 政府 支持 的 和 大厂 投入 的 都 还 不足 不足以 留住 一流 的 人才, 让 一流人才 高密度 的 进行 交叉 和 交流。 但 从 我的 角度, 我是 一直 去 尝试 找到了 这样的 团队 的。
有的人 说 可能 觉得 中国 压根 就 不 适合 这样的 研发 型 的 机构 存在, 资本 都 没有 耐心, 环境 也 不太好, 然后 我们 需要 做 的 就是 open I 做了 什么, 我们 抄 一 抄 就 好。 但是 人家 真的 实现 到 那一天, 那 其实 就是 他是 美国 的, 是 OpenAI 的, 它 不是 中国 的, 不是 我们的。 今天 从 芯片 的 格局 就可以 看到, 他们 也 不会 轻易 给 我们。 所以 我 从 我的 角度, 我 还会 愿意 相信 中国 需要 一个 做 foundation model 的 一个 更 自由的 人才, 更 交叉 的 商业化 的 一个 团队。 当然 也 需要 可能 政府 的 支持, 更 需要 超一流 的 人才 来 领军 一起 去 干 这件 事情。 就 从 我的 角度, 我 还是 愿意 去 赌 的。
我 补充 几个 OpenAI 的 信息, 因为 其实 OpenAI 它 在 成立 的 时候, 我也是 正好 是 采访 过 这家 机构 的。 就是 他 最 开始 成立 的 时候, 他 其实 是 sam altman, 就是 当时 y coming latter 他的 总裁 跟 马斯克 一起 去做 的。 最 开始 马斯克 为什么 要 做 OpenAI? 就是说 我们 应该 去 关注 人工智能 的 安全问题。 他 当时 还说 你 应该 担心 人工智能 的 安全问题, 因为他 比 这个 朝鲜问题 还要 危险, 所以 他是 怕 人工智能 作恶 的。 这样的 一个 雏形。
最 开始 OpenAI 它 在 解决 一个 什么 问题 呢? 就是 它 想做 通用 人工智能。 所谓 的 通用 人工智能 就是说 人工智能 它 在 所有的 领域 他 都 可以 比 人 做得好, 或者 至少 跟人 能 达到 一样的 智力 水准。
关于 这样的 一个 愿景, 其实 在 业界 和 学界, 包括 一直 到 今天 是 有 非常 多 的 争议 的。 就像 jack 其实 你 有 拜访 过 很多 的 教授, 我知道 这 里面 有 很多 的 教授, 他 到 现在 他 都 觉得 通用 人工智能 的 这种 提法 是 有问题 的。 甚至 有 很多人 他 就 直接 觉得 马斯克 要 做 这件 事情 是因为 他不懂 AI, 包括 扎克伯格 也是 这样 怼 过 的。 所以 马斯克 懂不懂 AI 这个 我们 不知道, 就是 我们 可能 会 专门 花 一期 的 时间 去 讨论 这件 事情。 那 简单 来说 他 要 怎么 去 实现 它 这个 通用 人工智能。
就 我 跟 OpenAI 的 第一批 就是 最早 的 创始 成员 来去 聊 这件 事情 的 时候, 他们 就说 OpenAI 下 正在 做 的 事情。 简单 来说 就是 用 一个 非常 熟悉 的 生活化 的 场景, 就是 我们 要 去做 一个 会 做饭 的 机器人。 因为 最近 马斯克 特斯拉 它 有一个 A I day, 然后 发布 了 一个 机器人, 大家 对 人形 机器人 的 场景 感觉 都很 炫酷。 其实 马斯克 很 早就 在 想做 这件 事情 了。
这个 会 做饭 的 机器人, 其实 OpenAI 最 开始 他们 内部 训练 这样 一个 场景 很 简单, 我就是 去 研究 这个 机器人 怎么 去 握住 杯子。 握 杯子 其实 是 一件 很难 的 事情。 比如说 一个 啤酒瓶 儿 要 握 到 它的 哪个 位置 它 不会 掉下来, 一个 茶杯 要 握住 哪个 位置, 碗 要 怎么 端。 做饭 这个 场景 是要 调动 到 非常 多 的 智能 的。 然后 我 还 注意到 当时 就是 像 今年 马斯克 在 发布 他的 机器人 的 时候, 它 里面 有一个 场景, 就是 那个 机器人 他 再去 端 一个 浇花 的 水壶, 他 就 知道 去 拿 那个 壶 丙。
我 当时 还在 想, 这 是不是 当时 跟 OpenAI 的 一些 研究成果 也是 有关系 的。 但 同时 我们在 播客 的 最 开始 就说 stable diffusion 这家 公司 是因为 他们 开源 了, 所以 他们 现在 影响力 很大。 但 其实 OpenAI 它 在 成立 的 时候, 他 就有 一个 非常 强烈 的 行业 背书, 说 他 会 去 公布 自己 所有的 研究成果, 而且 他 会 把 自己的 算法 去 开源 掉。 我不知道 现在 OpenAI 还 是不是 这样 做事 的。 其实 马斯克 也 退出 了, 他的 性质 也 变了 很多, 就是 微软 也 投资 了, 包括 他 跟 微软 的 一些 合作, 其实 有 一些 也 在 被 业界 吐槽。 它 现在 到底 是 一家 什么样 的 机构 呢? 它 还是 一家 开源 的 机构 吗?
从 我的 了解 确实 是 变了, 然后 具体 变成 什么 样子 不太 方便 说 了, 我们 可以 把 它 理解 为 它 变了, 然后 因为 这件 事情 可能 对于 国家 和 国家 之间 的 博弈 太 重要。
那 我们 从 商业 上 分析 一下, 我不知道 他 现在 收入 在 一个 什么样 的 水平 上。 就是你 刚刚 提到 了 jasper 它的 收入 是 9000万美元, copy 点 A I 有 1000万美元, 他们 还都 相当于 是 底层 模型 上面 的 应用层。 那 对 OpenAI 来说, 其实 他们 要 去 调用 它的 数据 接口。 我自己 也 试用 了 一下, 他 也 对 普通用户 开放, 第一次 使用 是 18美元, 大概 换取 10万个 token。 你可以 把 一个 token 理解 成 一个字, 然后 它 会 就有 一个 很 复杂 的 折算 比例。 总之 就是我 试 了 一下, 大概 我 一天 玩 个 四五十 次, 我的 credit 就 我的 可以 用 的 那个 token 就 没有了你 觉得 他 未来 会 是一个 基础 建设 层, 会 是 超级 能 赚钱 的 一家 公司 吗?
好 问题, 我 觉得 OpenAI 可能 这个 阶段 完全 没有 考虑 什么 赚钱 和 商业化 的 事情, 他 要 做 的 就是 最 短时间 抵达 A G I。 所以 今天 虽然 jasper 赚 了 很多 钱, 然后 靠 1点AI 赚 了 很多 钱, 但 真正 revenue 通过 A P I。 或者 调用 走到 OpenAI 应该 是 没有 那么 多 的。 但是 他们 基本上 也 不靠 revenue, 而 靠 的 都是 外边 可能 融 到 的 一个 钱。 但 一旦 你走 到 A J I 那一天, 那你 随便 去 炒 美国 的 二级 市场, 你 赚 的 瞬间 的 这个 体量 应该 要 比 今天 这点 A P I 调用 revenue 要 高 很多 了。
对 这 一块 我可以 补充 一下, 我们 可以 去 看一下 jasper 它的 定价。 就 我 之前 看 的 时候 定价 也是 按照 生成 的 token 数 去 收。 对应 比如说 十几美元 一千多 token, 大概是 这样 一个 量。 可能 我记得 有点 混, 但是 就 比如说 相同 的 token 数, jasper 收 十几美元, 其实 调 OpenAI gbt 3的接口 是 0.00 叉 美元, 大概 这个 量级。 所以说 我们 可以 看到 jasper d 在 调用 GBT3 的 A P I, 在 做了 一层 模型 优化 的 工作 及 产品化 的 工作 之后, 其实 是 可以 产生 百倍 甚至 千倍 的 溢价 的。 然后 这 一方面 就是 说明 我们是 可以 认可 AIGC 这个 事情 的 产品化 的 价值。
另外 也是 我 觉得 OpenAI 它 会 相应 的 比较 有 情怀。 更 希望 是 把 这个 生态 给 做 起来, 而 不是 在 这儿 因为 它的 绝对 的 技术壁垒 而 去 给 大家 收 过路费。 我 觉得 OpenAI 它是 很 有 格局 的, 没有 去做 这个 事情。
其实 从 底层 上, 刚刚 我们 其实 有 谈到 谷歌 的 lambda。 Lambda 它是 一个 类似 于 G P3, 它是 一个 自然语言 的 这样的 一个 模型。 谷歌 也有 一个 跟 OpenAI 很 类似的 一句话, 生成 图片 的 模型 叫做 imagine 对 吧? 但是 这个 imagine 好像 是 还没有 开源。
对, 就是 它的 开放 程度 是 很低 的, 既 没有 开源, 其实 也没有 类似 那种 A P I 的 方式 可以 给 大家 去 调。
对他 未来 想 怎么走, 可能 我们 也 不太 知道。
或者 可以 观望 一下。 其实 背后 有 比较 大 的 一个 逻辑 就是 OpenAI 它 毕竟 你可以 理解 为 它是 一个 专注 于 A I 领域 的 机构。 而 google 它 本身 就有 非常 庞大 的 业务, 它 可能 内部 的 数多 业务 线 都是 可以 应用 上 或者 率先 应用 上文 生 图 或者 完美 生成 这种 能力 的。 所以说 可能 各自 去做 这 一块 技术 的 意图 会有 一些 不一样, 也会 导致 他们的 动作 会有 一些 不一样。
谷歌 的 意图 是什么?
当然 也是 猜测 和 推断。 就是 如果 他 相信 AIGC 将 会 改变 整个 内容 产业, 甚至 整个 互联网。 那么 他 应该 是 率先 会 在 自己的 应用 上去 上线 这 一类 能力, 让 他的 应用 具备 足够 多 的 差异化。
接下来 我 其实 还有一个 问题是 关于 应用层 的, 就是 因为 大家 其实 都 可以 去 调 它的 接口。 应用层 我们 刚刚 也 提到 了, 就是 它 其实 有一个 每个 月 的 定价。 我说 我不知道 它的 门槛 有 多 高, 但是 现在 跑 出来 就是 它 如果 有一个 先发 优势, 能够 先 圈 一批 用户, 然后 有 一些 资金投入, 当然 是一种 优势。 另外 我是 在 想 这些 应用层 它 会不会 因为 底层 的 模型 是 一样的, 它 又是 一个 创业 很 火 的 领域, 最后 大家 陷入 到 一种 价格战 的 比拼 中。 因为 两位 其实 现在 也都 在 做 投资, 或者 在 看 投资 相关 的 项目。 如果 你们 要 去 看 一个 应用层 的话, 你们 评估 的 最 重要 的 指标 是什么? 它 会不会 变成 一个 红海 价格战 的 产品?
其实 A I 的 A P I 调用 这种 模式 很 早就 出现了, 可能 是在 大 几年 前, 不管 在 海外 还是 在 国内 都 是一种 很 常见 的 商业模式。 并且 可能 很多 公司 用 A I 都会 去 调 各种 A I 开放平台 A P I 但是 现在 大 模型 这个 范式 下调 A P I 会有 一个 非常 大 的 不一样的 点, 就是 以前 我们 去 调 一个 A I 的 A P I 的 时候, 其实 就是 单纯 的 调用 能力。 然后 针对 这个 模型 我没有 改动, 我没有 优化。
但是 在 大 模型 其实 它 有一个 最 重要 的 范式 叫做 预 训练 加 微调。 就是 它 调 的 是一个 预 训练 模型, 它 可以 再加上 自己的 独特 的 场景 数据 和 行业 数据, 去做 模型 的 微调 和 优化。 就是说 任何 创业 公司 或者 应用层 公司 都 可以 做 这部 动作。 有了 这 一步 动作 的 存在, 其实 是 给 了 他 一个 在技术上, 即使 大家 调 同样 的 接口 也可以 拉开 差距 的 一个 现象 的 存在。 所以说 即使 比如说 我们 同时 用 jasper 或者说 其他 的 海外 没有 那么 知名, 也没有 那么 好的 文本 创作 的 产品 的话。 我们会 明显 发现 jasper 的 模型 的 效果 是 更加 好的。 它是 可以 通过 微调 的 这种 方式 去 形成 自己的 技术壁垒 的这 是 一个点。
然后 另外 一个点 就是我 始终认为 就是 AIGC 这个 领域, 它 其实 某种意义上 是 技术 驱动 产品, 或者说 技术 驱动 需求。 它 不是 一个 大家 一开始 有了 某种 需求 诞生, 然后 再去 找 有没有 产品 去 满足 的 情况。 他 一开始 就是 大家 做了 一个 发现, 以前 都 不敢 想 向 的 文本 生成 的 技术。 然后 我们 再去 找 P M F, 找到 原有 产业链 里面 哪些 痛点 可以 去 被 满足 的。 我 觉得 在 这个 阶段, 其实 对于 不管 是 产品 经理 还是 一线 的 工程 的 同学 来说, 他们的 要求 是 更高 的, 他们 要 更好 的 敏锐度, 他们 要 去 从 0到1, 根据 这个 新技术 去 定义 好 这个 产品 形态, 去 不断 的 找到 创新点。 所以说 这 一层 工作 我也 觉得 是 非常 有 价值 的。
当然 就是 可能 这个 市场 在 经过 几年 的 演变 之后, 比如 大家 的 P M F 都 找到了, 原有 的 价值 点 也都 找到了 之后, 就会 慢慢 陷入 内卷 化。 我 觉得 也是 有可能 的。 但是 可能 在 近几年, 尤其是 在 中国 这个 市场 可能 都 还没有 把 P M F 给 找到了。 这个 阶段 一个 非常 优秀 的 应用层 团队, 他 去 找到 很 好的 切入点, 定义 好 产品 形态, 并且 不断 的 优化 微调 自己的 模型, 我 觉得 会 是一个 非常 强 的 公司。
我 补充 几点, 首先 我 个人 可能 对 游戏 这个 领域 会 格外 关注 一些, 所以 我 基本上都 会 问 你 这个 模型 在游戏 领域 有 什么样 的 一些 应用。 我 也会 专门 找 一些 又 做 A I 又 做 游戏 的 人, 看看 他们 对于 今天 的 大 模型 怎么看。 从 我的 角度, 首先 今天 我们 用 文字 生成 已经 赚 了 很多 钱 了, 图片 生成 赚 了 一部分 钱, 还没有 赚 到 特别 多。 接下来 就是 google meta 在前 一段时间 11的时候 后 再 卷 对 视频 生成 视频 这个 风口 真的 到了 吗? 其实我 现在 还 不太 确定 的, 所以 看看 家康 那边, 你们 在 这个 大厂 内部 看看 状态 怎么样 了。 至少 我 最近 也 跟 比如说 美国 一些 头部 大厂 在 聊吧, 就是 视频 生成 这 一块 好。 但 还是 有一点, 一是 可能 算 力 消耗 比较 大二 是 生成 时间 也 有点 久。 然后 三是 可能 视频 的 逻辑性 还没有 那么 好在 这 一块 就是 图片 的 生成 的 精度 都 还没有 达到 特别 好的 一 的 感觉。 你 图片 做好 了, 可能 视频 会 更 通顺 一点, 所以 这 还是 有 一波 机会 的。
最 理想 的 情况下 是什么 呢? 就是 人像 神 一样的 去 创作。 比如说 你 闭上眼睛, 你 现在 要 去做 一个 塞尔达 画风 的 北京城, 然后 你 希望 我们的 某 一个 大楼 它 变成 另外一个 形状, 你 可能 手 稍微 去 捏一捏, 嘴巴 描述 一下, 它 就 生成 了。 这是 最 理想 的 一种 创作 形态。
今天 我们的 AIGC 离 这个 形态 还差 多远 呢? 其实 还差 一定 的 一个 距离, 不同 的 场景 下 A I 生成 都有 不同 的 交互方式。 比如说 我们在 电商 领域, 我 今天 就是 需要 简单 的 文字、 图片、 短 视频 的 生成, 就 能够 帮 我 推荐 商 的 产品, 增加 我的 转化率 就可以 了。 但是 在游戏 场景 里面, 我们 现在 需要 做 的 是 对话 系统 的 一个 生成, 动作 角色 系统 的 生成, 物理 交互 逻辑 的 一个 生成, 整个 游戏 原画 的 一个 生成。 每个 生成 的 背后 的 东西, 它 有时候 是 代码, 有的 时候 是 图片, 有的 时候 是 完全 新的 一种 模态。
还有 3D场景 对 吧?
这个 就 更难 了。 是的, 这 里面 有 很 简单 的 东西, 你可以 完全 靠 几万 的 一个 成本, final ing 一个 很 小组 的 数据。 但是 在游戏 场景 里面 就是 非常 好用, 是 完全 有 这样的 一个 机会 的。 但是 我 今天 观察 下来, 就是 这里 边 有 很多 小的 组件, 基本上 跟 一个 unity 和 real 一样 复杂。 你 又 需要 生成 A 又 需要 生成 B 又 需要 生成 C 没有 一家 公司 把 所有的 组件 拼在一起, 直接 暴露 给 开发者, 让 开发者 就是 all in one 的, 就是你 AI 想 生成 任何 东西, 用 这个 就 好了。
我 去年 跟 real 和 unity 聊 的 时候, 我 跟 他们 有 聊到 AIGC。 因为我 一直 觉得 AIGC 会 爆 出来, 然后 我 就 问 他们 怎么看 这一点, 担 不 担心 自己的 引擎 会 被 颠覆 掉? 他们说 如果 有 这样的 工具 和 产品, 游戏 引擎 的 工作 就是 上游 去 连接 所有的 算 力 和 系统, 下游 暴露 给 开发者 的, 他们 应该 第一时间 接进来。 但是 在 过去 两三个 月 的 时间, 我 看到 了 P S 把 这样的 一个 应用 AIGC 的 应用 接进来。
但 游戏 引擎 我 还没有 看到, 这就是 机会, 就是你 能把 各种各样 的 A I 生成 的 东西 接到 游戏 开发 里面, 那你 就 变成 针对 这个 场景 的 一个 the go to place, 然后 背后 可以 接 各种 不同 家的 一个 模型。 这里 边 你 积累 下来 的 数据 和 一些 I P, 就 比如说 我 专门 对 游戏 这件 事情 做了 特别 多 的 fine tony, 或者 合作 很多 厂家。 我 拿到 很多 大厂 给 我的 I P 有可能 我 在游戏 这 一块 就会 有一个 自己的 special cut。 这个 在游戏 领域 里面 的 逻辑 可以 平移 到 电商 领域, 科研 领域, 然后 其他 的 一些 工业 领域 里面。 所以 会有 这样的 一个 观察, 就是 它 可能 不单单是 价格战 了。
我 其实 比较 担心 的 一点 就是 国内 它的 foundation model 会 变成 foundation model 4小龙。 就是 因为 现在 还没有 一个 领军 级别 的 foundation model 出来。 国外 你 已经 比较 clear 了, 要不然 我们 也, 要不然 是 stability。 然后 其他 几个 谷歌 lemon 大厂 还没有 把 它 全 放 出来, 那 国内 不知道 哪家 会 跑 出来。 如果 跑 出来 之后, 一旦 开始 打 价格战, 那就 比较 有意思 了。
但是 我相信 是 不同 的 产业。 根据 这个 产业 里边 的 开发者 creator 他们的 需求, 我们 做出 针对 这个 场景 和 这个 产业 的 一个 U I 然后 用户 习惯 这个 U I 之后, 它 就是 一个 新的 AIGC 的 一个 Operating system。 可以 这么 理解, 这个 还是 会有 一定 的 壁垒 的。 这个 地方 有可能 就 打 不 出来 价格战 了, 他 就有 一个 头部 的 一个 效应。
但 我 觉得 你 要说 的, 比如说 在游戏 上 太难 了。 我看 了 一下 9月19 号 洪山 发 了 一篇 文章, 叫做 生成式 A I 一个 创造性 的 新世界。 它 其实 是 有 一张 表格 是 讲 到了 整个 生成式 A I 未来 的 整个 的 图景。 红杉 是 把 它 分成 了 文字、 代码、 图片、 speech 对 演讲 视频, 然后 是 3D最后 有一个 其他。 你 刚刚 也 提到 了 11的时候, meta 他是 发 了 一句话 生成 视频 的 这样的 一篇 论文。 其实 昨天 我们 还有一个 上半场 的 讨论, 我们 也 在 讨论 生成 视频 它 对 语义 的 理解 会 难 很多, 包括 动 的 东西 之间 的 逻辑关系。 游戏 它 其实 都 不是 一个 平面 的 东西, 它是 一个 3D建模 的 东西。 当然 这个 事情 在 未来 是 有可能 实现 的, 只是 说 它 现在 还在 这个 时间线 的 前半段, 我 觉得 整体 来说 是 很 有戏 的。
另外 还有 一点 是 你看 我们 整个 社交 平台 的 革新。 最 开始 是 人人 都能 发 微博, 最 多是 一段 文字 加 一段 配图。 现在 人人 都能 做 视频, 人人 都能 做 播客, 它是 这种 多媒体 的 交互。 后来 有了 epic games 跟 rob locks, 就 变成 了 人人 都 可以 自己 去 创作 游戏 了也 变成 了 一种 游戏 共建。 我 觉得 整体 上 来说, 就是 有了 这种 工具 的 赋能。 从 文字 到 图片 到 视频 到 游戏, 它 确实 是一个 一步一步 更大 的 图景。 挺 有 想象力 的, 但 难度 也 挺 大 的, 可能 也是 指数 级 的。
对我 稍微 展开 一下 我 在游戏 领域 的 一个 想法。 就是 起初 是 2020年 的 时候, 我问 我 老板, 我说 我 想做 一个 基于 脑机 的。 然后 根据 你 每天 白天 看见 的 人 神经元 的 一个 信号, 然后 晚上 回家 之后, 你 多巴胺 荷尔蒙 的 含量 生成 一个 就是你 晚上 到家 适合 你的 一个千 人 千面 的 一个 场景 的 一个 生成。 这个 想法 怎么样? 然后 老板 就说 你 actually good idea。 就是 之前 也 有人 想 过, 如果你 有 完美的 proposal 和好 的 团队, 我 就 把 你 带到 master 那里 帮你 融 20亿美元。 我 当时 一听 OK, 我以为 这个 他 会 拍 我的, 但是 就 代表 这件 事 其实 是 非常 大 的。 从 我的 一个 角度 就是 价值 是 满足 需求 的 一个 能力, 长期 的那 游戏 是 最好的 需求 的 一个 容器 了。
AIGC 它 其实 不单单是 游戏, 而是 元 宇宙 最 关键 的 一个 基础设施 之一。 过去 在游戏 领域 的 AIGC, 18年 前后 先后 有 起源 世界 超 参数 R C T, 主要靠 的 是 强化 学习 和 决策, 然后 生成 一些 N P C 的 智能。 但 今天 大 模型 短期 可以 落地 的 可能 是 角色 的 原画, 整个 角色 的 3D和 地图 的 这样的 一个 生成。 在 这个 节点, 可能 我们 目前 看来 价值 是 小的。
但 前段时间 其实 跟 元气 骑士 的 创始人 就是 一个 像素 风格 road leg 的 一个游戏。 但是 却有 几百万 的 一个 用户。 我 跟 他 交流, 然后 为了 跟 他 交流, 我 下载 了 一下 元气 骑士, 之前 基本上 不 玩 这样的 这个 像素 风 的 游戏 的, 我 只 玩 那种 画面 特别 牛 的 3A游戏。 然后 我 玩 了 之后 非常 的 抓 人, 就 玩 了 两个 小 是 然后 2个小时 里面 我 从来 没有 捡 到 过 同样 一把 武器, 我 就 发现 了 这样的 游戏 的 魅力。 他们 就是 几个 大学生 加 一个 美工, 然后 一个 工程师 就可以 把 游戏 的 可玩性 发挥 到 极致。 今天 A I 就 像你 给 这样的 小的 团队 配 了 无限 的 美工。 对于 游戏制作人 来说, 他 要 的 就是 在 有限 的 资源 里面 探索 各种各样 能够 抓住 人心 的 一个 玩法。
我 跟 很多 科学家 在 过去 一年 交流 下来 感受 就是 科学家 看到 A I 成熟 了, 开始 下场 自己 干 产品 了。 有的人 甚至 说 他 自己 想 干 游戏, 而 游戏 的 人才 和 产品 的 人才 那个 时候 还没有 意识到 这样 一点。 所以 我 当时 办 了 一个 AIGC 的 活动, 让 元气 骑士 的 那个 创始人 和 一个 做大 模型 的 founder 去 近距离 的 交流。 我 那个 活动 推 文 刚 发出 来 三天 之后, 红杉 发 了 那 篇 generative A I 的 文章, 然后 整个 行业 就 刷 就 火 起来 了。 十一 之后 你 明显 的 感受 就是 整个 在 游戏圈 里边, 至少 nova A I 这件 事情, 二次元 生成、 原画 生成 在游戏 产业 特别 出圈。 在 红山 那 篇文章 之前, 我在 游戏圈 里面 发 了 我 那个 活动 的 推 文, 他们说 这 是不是 传销, 这 是不是 新一代 传销。 然后 十一 之后 大家 都在 聊, 是不是 要 失业 了。
核心 我是 觉得 今天 这个 时间 节点, 大部分 人 其实 还没有 开始 用。 但是 你 一旦 给 他们 点 incentive, 他们 用 起来 没准 我们 能 做出来。 像 羊 跟 羊 这样的 一个 产品 就 非常 的 破 圈。 哪怕 就是 只 做 表情包 这样的 应用, 只 做 头像 这样的 应用, 我 都 可以 把 它 做成 游戏, 化做 的 很 好玩。
但 我 觉得 这个 其实 核心 不在 A I。 如果你说 要 做 阳 了 个 阳, 我 觉得 是不是 在 他的 那 套 数值 体系 里面, 他 不靠 设计, 不靠 美工, 他 靠 的 其实 是 想法 和 数值 系统。
是的, 但 之前 就是 会 玩 数据系统 或者 会 玩玩 法 的 这帮 人 缺 的 就是 资源, 缺 的 就是 美工。 今天 AI 给他 生成 的 就是 大量 的 美工 的 资源, 就是 一个 很 会 玩 想法 的 人。 你 突然 给他 配 了 巨 多 的 美工, 那 他 能 创造 出来 什么样 的 一个 东西 呢?
其实 这 一块 挺 有 挑战 的, 也 肯定 会有 很多人 会 保持 不一定 看好 的 态度。 但 我 个人 会对 这方面 有 很 好的 一个 期待。 就 一旦 你 能 hte 到, 比如说 你 500个团队 你 就 去 试 好了。 然后 你 hte 到 几个 爆款 的 游戏 之后, 这些 公司 都 会有 现金流。 背后 提供 这样的 工具 的 模型 团队 都会 能够 更多 钱。 他 可以 把 更多 的 模态, 更多 的 数据 放进来, 长期 通往 视频 或者 游戏 的 直接 生成。 但 短期 至少 你 会有 一个 momentum, 你 会有 要不然 是 用户 的 增长, 要不然 是 revenue 的 一个 增长。 这个 想象 空间 未来 肯定 是 大 的, 但 核心 是 今天 这个 节点 就能 有 一些 成熟 的 路径 跑 出来。
我不知道 家康 怎么看 你的 这个 观点, 我 认同 你的 长期 的 你 觉得 他 会 更有 想象力。 但 其实 从 我自己 的 实际 体验 来看 的话, 我 觉得 他 对你 有 指令 的, 你 脑子 里面 有一个 预想 的 场景 的 生成, 它 还是 非常 的 初级 的, 包括 它的 整个 的 照片 质量。 你 刚刚 说 他 跟 P S 也 合作 了, 我不知道 他 跟 photoshop 是一个 怎么样 的 合作关系。 但是 从 我自己 去 生成 我们 节目 的 封面 图 的 实际 经验 来看, 我 觉得 如果 我想要 更多 的 去 控制 它, 或者说 它 要 更好 的 来 表达 我想 表达 的 思想 的话, 现在 我 还 完全 离不开 我的 设计师。
首先 他是 没有 办法 替代 设计师 的。 但 我 同时 也 保持 乐观 的 一件 事情 是我 觉得 这个 事情 最 有意思 的 点 就在这里, 就是 过去 聊 上 一个 行业, 大家 热潮 在 干嘛。 比如说 当时 是在 做 无人驾驶, 我也 做 过 无人驾驶 特辑 的 一系列 的 博客 访谈。 然后 还有 A I 应用 到 医疗 领域, 就 比如说 通过 A I 去 判断 识别 一个 影像, 比如说 这种 A I 帮助人 去做 决策 的, 我们 看 这个人 有没有 病。 哪怕 无人驾驶, 我们 达到 99% 的 准确率 都 不行, 就是 差 了 那 1%。 那就是说 100个人 里面 有一个人 误诊, 1万个 人 里面 有 100个人 误诊。 或者说 自动驾驶 我 出了 一起 事故, 那 可能 整个 行业 就得 都 浇 一盆 冷水 了。 就是 这个 事情 他 很 要求 精确性, 然后 它 精确性 没有 达到 一定 的 程度, 它 很难说 这些 应用 就 能够 完全 落地。
但是 我 觉得 现在 的 生成式 A I 它 其实 不是 设计师 会 失业 的 问题, 他 其实 是 帮助 设计师 完成 他们 最 初期 的 一部分 工作 的 问题, 他 不需要 进去。 我们 昨天 其实 还在 聊 太空 歌剧院 的 那幅 获奖作品, 我以为 那个 是 完全 A I 生成 的, 其实 那个 是 它是 有 精修 过 的, 它 不是 一个 完全 A I 的 作品。 这件 事情 的 点 就在于 它 可以 帮 我们 极大 的 去 节省 人力, 然后 可以 帮 设计师 去 完成 一个 初稿。 设计师 可能 觉得 这个 图 的这 一部分 有用, 我 把 它 拿 过来, 然后 我 来 对它 进行 一个 调整, 或者说 这个 视频 的这 一部分 有用, 我们 就 用 一点点 生成式 AI, 它 可以 做 创造性 的 工作, 同时 这个 工作 在 人的 辅助 的 情况下, 他 对 精确性 的 要求 不 那么 高了。 这个 是 让 我 觉得 比较 兴奋 的 一个点, 这个 是我 自己的 一些 想法, 我不知道 家康 怎么看。
对 在游戏 这个 行业, 其实我 的 很多 观点 和 jack 也 比较 一致, 我 觉得 可以 站在 短期 和 中长期 两个 维度 看。 短期 我 觉得 AIGC 给 游戏 行业 带来 两个 价值, 一个 是 大幅度 的 提 效, 在 几个 维度, 一个 像 文字 生成 图片 的 模型。 像 现在 很多 游戏 的 画师 确实 是 可以 依靠 这样 一种 工具 来 把 自己 想要的, 不管 是 做 创意 激发, 还是 基于 A I 生成 一个 基本 的 图像, 再做 二次 编辑, 直接 用于 游戏 场景 里。 这会 是 文生 图 在 这个 领域 的 应用, 包括 3D模型 的 生成, 这个 比较 好 理解。 A I 可以 很 快速 的 把 我们 一些 天马行空 的 想法 给 做出来, 而 这 本身 就是 一个 非常 高 成本 的 一个 物料。
第二个 角度 就是 新玩法, 这个 其实 是我 比较 在意 的。 像 海外 有 一家 公司 叫 AI dragon, 它 其实 是 做了 一种 类似 文字 对话 游戏 的 一个 形态。 这个 游戏 形态 应该说 是在 AIGC 出现 之前 是 不可能 有的。 对应 来说 运用 这种 AIGC, 它 生成 内容 的 这种 不确定性, 但是 又有 一定 的 合理性, 可以 去 激发 用户 玩 的 那种 心理, 然后 甚至 是 沉迷 上瘾 的 这样 一种 特质, 他 是不是 可以 做出 更多 有意思 的 形态。 我 觉得 这 一块 目前 是 很 看好 的。
从 中长期 的 角度 来讲 的话, 我 认可 游戏 行业 最大 的 点 就是 它 其实 是一个 创新 的 一个 源泉, 创新 的 一个 激发 地。 因为 一定 是 这个 世界上 最有 想法, 最 技术 极客 的 那群人 会 投入到 游戏 这个 领域。 而且 游戏 会 反馈 回来 大量 的 交互 数据, 能够 在 用于 模型 的 迭代 训练。 所以 从 这个 角度 在游戏 行业 能够 诞生 最前沿 的 创新 和 玩法, 我是 绝对 认可 的。 主要是 短期 和 中长期 两个 角度。
对我 在 echo 一下 家康 刚才 那个 A I 单纯, 我 经常 提 A I D 那个 耿。 因为 他是 一个月 active 用户, 是 150万 的 一个 用户, 其实 非常 impressive。 就是 艾尔 登 法 环 在 2 3月 的 时候, 他 用户 才 不到 100万。 AID150万 的 一个 用户, 其实 他 就是 简单 的 文字 对话, 然后 不 超过 十轮。 至于 GPT3, 你 超过 十轮 这个 游戏 就 搞得 很 奇怪 了。 但 今天 这个 时间 节点 在 我们 现在 的 A I 生成 图片 上, 就算 你 生成 一些 很 古怪 的 东西, 我 照样 可以 做什么。 我可以 做 比如说 克苏鲁 画风 的 游戏, 那 生成 的 所有 怪物 都是 很 奇怪 的这 本来就 很 奇怪。
这个 阶段 我 看到 很多 公司 它的 图片 生成, 包括 P S 的那 一块。 P S 说 我 现在 就 把 jane 的 这个 背景 给 抹掉, 然后 我说 换成 雪山, 换成 什么东西, 把 这个 耳机 说 换成 这个 头盔。 它 就可以 做 局部 的 编辑。 达到 这一点, 其实 你 不单单是 原画师 在 上面 去做 一些 拼接 了, 可能 游戏 的 策划 你可以 直接去 做图 了。
这个 是 最近 我在 比较 前沿 的 团队 里面 看到 他们 正在 打磨 的 工具。 我也 蛮 期待 可能 再 过 一两个 月, 这些 工具 就能 在 游戏圈 里面 投入 进去。 我自己 其实 还是 也 蛮 坎坷 的, 就是 不知道 他们 能不能 做出 一个 好玩的 一个游戏, 但 我会 非常 期待。
其实 我们 刚刚 讲到 的 还有 很多 是 to b 的 应用, 我 觉得 to c 可能 也会 很 有 想象力。 另外 还有一个 可能 是 特别 小众 的 领域, 就是 硅谷 101。 之前 的 一位 嘉宾 跟 我们 聊 G P3 的 howe, 我看 他是 发 了 一条 朋友圈。 他说 有一个 考古学 的 教授 就 跟 他说, 这个 事儿 在 考古学 里面 太 有用 了。 因为 考古 它的 那个 场景, 它 其实 是一个 不太 清晰 的 一个 发掘 现场。 但是 他 其实 很 需要 根据 现场 去 还原成 一个 清晰 的 有 当时 想象力 的 东西。 他 发现 用 大力 two 的 模型 就能 更好 的 去 帮 他们 看 那个 考古 当时 的 场景 是 怎么样 的, 这个 我 还 挺 没有 想到 的。
有意思, 确实 这个 是 too specific 小的 产业 的。 待会儿 可能 如果 再聊 一些 别的 应用, 就是 会有 这样 一个 topic。 A I scientist, 就是 A I for size 和 A I scientist 也是 在 generative A I 里面 相当 关键。 就是 OpenAI soundman 跟 realf man 他的 对话 里面 讲 到了 一点, 我们 刚才 聊 的 是 考古 这 一块, 很多 产业 有 新的 方式 去 思考。 然后 在 最近 一段时间 我们 研究 是 A I for science 这 一块。 虽然 我 个人 很喜欢 游戏, 但 老板 会 迫使 我说 他 觉得 这 一块 更有 价值。 然后 包括 在 OpenAI 最近 sam 奥特曼 和 glock partner ray hofman 的 一个 对话 里面, 三 特曼 就 聊到 A I 有可能 的 三个 很 关键 的 一个 人物。 第一个 是 做 科学家 的 工具, 比如说 像 opa fod。 第二个 是 解决 每一个人 日常 的 一些 需求, 比如说 A I coding 做 编程。 第三个 就是 A I 自己 演化成 一个 科学家。
就 某种意义上, 艺术 在 我们 看来 是 非常 难 的 一件 事情。 但是 AI 做 的 很好, 科学家 也是 我们 看来 很难 的 一个 事情, 有可能 A I 也可以 做好。 我们 今天 去 解决 一些 复杂 的 问题, 比如说 阿兹海默 综合症, 我们 如果 有 足够 的 数据 的 情况下, 我会 把 它 拆成 一个个 的 子 问题, 然后 在 不同 的 学科 里面 寻找 答案。 每个 科学家 都 会有 一个 自己的 实验 书本, 记住我 可能 为什么 这里 用 的 这个 公式。 那里 边 我 用了 这样的 一个 物理学 的 一个 原理, 直到 我们 解开 这样 一个 科学 的 一个 谜题。 这里 边 也有 一些 知识 图谱, 当然 知识 图谱 这 一块, 家康 如果 有 一些 information 也可以 去 补充。
有些 数据 我们是 还没有 放到 模型 里面 的。 就 比如说 这样的 实验 记录本, 如果你 放进去 之后, 会不会 让 这个 A I 有 更强 的 一个 在 实验 环节 中的 更强 的 推理 能力, 它 可以 直接去 解决 复杂 的 问题? 就是 之前 我们 去 解决问题 的 时候, 我们 都是 把 它 拆成 子 问题, 然后 自己 去 百度, 自己 去 google。 今天 有没有可能 就 直接 跟 这个 模型 对话, 让 模型 给你 一个 有 逻辑 的 一个 推理 过程。 这个 在 科学 里面 可能 会 非常 的 有意思, 这是 最近 可能 我在 研究 的 一个 方向, 但 不知道 能不能 搞 成。 因为 这里 边 require 就 非常 多 特殊 行业 里边 的 一些 数据。 就是 你不知道 哪些 数据集 是 今天 在 模型 里面 还没有 的, 那些 模态 是 还没有 被 加进 数据模型 里面 的这 家康 可以 补充。
对, 其实我 觉得 这个 话题 也 挺 有意思 的。 因为 我们 往往 深入 到 一些 垂直 的 科学 领域 的 时候, 我们 能够 得到 的 训练 数据 的 体量, 其实 会 比 我们 刚刚 说 的, 比如说 人为 创造 出来 的 文字 或者 图像 又是 大 了 几个 量级。 就 拿 医药, 就 我们 人的 分子 蛋白质 结构 等等 涉及到 的 数据量, 或者说 深入 到 某个 材料 领域 涉及到 的 数据量。 我们 用 大 模型 的 这样 一套 范式, 再去 加上 大规模 的 算 力 去做 训练 出来 的 得到了 一个 新 模型, 它 能够 解决 什么 问题? 我 觉得 这个 背后 是 非常 有 想象力 的。 其实 也 看到 还 海外 的 一些 公司 也都 在 做 相应 的 探索。 Jack 刚才 提到 的 关于 知识 图谱 这个 也 比较 有意思。 我 觉得 它 和 大 模型 会 是一个 双方 互相促进 的 一个 过程。
什么 叫 知识 图谱?
对 知识 图谱 你可以 理解 为 我们 每个人, 比如说 人和事、 人和 人人 和 物体 之间, 你 都 可以 把 它 想 成 一个 小球, 然后 互相 连接起来。 比如说 我和你 的 关系, 现在 是 我们 现在 在 录播 课, 然后 我们是朋友, 然后 汪峰 和 章子怡 的 关系 是 夫妻关系, 他 就是 把 现实 中 存在 的 这样 一种 不同 的 实体 给 建立了 一个 逻辑关系, 然后 把 它 描绘 起来 并且 存储 起来。 它 对应 的 最大 的 好处 就是 它 让 不管 是 A I 生成 的 东西, 还是 理解 的 东西 都 更有 逻辑性。 比如说 我们 让 一个 大 模型 他 去做 文本 生成 的 时候, 去 学习 很多 的 东西。 但 他 不一定 知道 汪峰 和 章子怡 是 夫妻关系。 但是 他 如果 在 理解 了 这个 知识 的 基础上, 他 再去 学习 大规模 的 数据。 第一 他 学 的 时候 他的 效率 会 更高, 它 就 类似 他 有了 一个 基础知识 再去 读书。
第二 就是 真正 在 应用 这个 模型 的 时候, 它 出来 的 东西 是 更 可用 的。 就是 因为 我们 人类 包含 的 这种 逻 结构 已经 是 内嵌 在 这个 模型 里 了, 所以说 它 就 不会 出现 一些 逻辑 很 混乱, 乃至 完全 不可 用 的 东西。 其实 现在 很多 厂商 在 大 模型 的 技术 上都 会 融合 知识 图谱 的 这样 一个 能力。
刚刚 你们 提到 的, 比如说 你们 觉得 AI 可以 去 赋能 科学家 这件 事情, 它 到底 是 AI 还是 aig c 因为 比如说 A I 它 可以 参与 到 制药, 它 可以 去 探索 这个 蛋白质 的 结构。 就 阿尔法 food 做 的 那些 事情, 它是 AI 做 的, 我不知道 它 跟 AIGC 有没有 关系。
其实 我们 今天 话题 虽然 是 AIGC, 但是 红杉 那 篇文章 的 标题 是 generative A I 它 不单单是 generative account, 对, 它是 生成 是 A I 这个 生成 后边 的 东西 可以 是 万物 dependent。 你 把 什么样 的 模态 放进去, 你 今天 放 代码 我 就 生 代码。 你 今天 放 蛋白质 三维 结构 我 就 生 这个 蛋白质。 你 要是 放 科学 推理, 那 我 就 给你, 你 直接 变成 科学家, 这个 还是 挺 有意思 的。 可以 这 一块儿 去 讨论 明白。
所以 AI 不仅仅 可以 生成 文字、 图片、 视频, 它 还 可以 生成 代码 或者 万物。 就 看 我们 想要 它 生成 什么。
就是 考验 创意 了。 是的, 然后 我 跟 那个 元素骑士 的 创始人 聊 完 之后, 他 提 了 一个 词 我 觉得 特别 棒, 叫 A I 直觉。 你 要 像 大 模型 train 大 模型 一样的 思考 方式 去 思考 它, 就是 它 一种 直觉, 就 什么东西? 它 之前 的 解法 可能 是 1加2等于 3, 现在 可以 突然 发现 1乘以 二 等于 2, 就 这种 它的 思考 关系 逻辑关系 变了, 所以 它是 一个 新的 范式。
跟 生成式 AI 相对 应 的 是什么?
我 觉得 相对 应 的 就是 理解 是 A I。 因为 我们 一般 会 把 生成 和 理解 做 一个 对应。 其实 他 有点 类似 人的 成长过程, 就是 一个 小朋友 刚 诞生 的 时候, 他 就 只能 去 看到 这个世界 万物 是 什么样 的。 他 知道 树叶 是 树叶, 妈妈 是 妈妈, 但是 他 无法 表达, 更 无法 创新。 但是 AI 它 随着 逐步 的 发展, 智能化 程度 不断提高, 它 就 有点像 人类 到了 我 随便 举 个 例子, 到了 十几岁 的 状态, 能够 去做 演讲, 能够 去 作画, 甚至 能够 去 产生 更多 的 思考 的 创作。 我 觉得 它 对应 的 其实 就是。
理解 之前 的 A I 有 哪些 应用 呢? 其实我 能 想到 的 之前 我的 博客 下面 有 一句 特别 牛 的 评论, 是 说 这个 世界上 最 聪明 的 人都 去 想办法 让 大家 怎么 点 广 高 去了。 讲 的 是 A I 在 推荐 算法 跟 推荐 系统 里面 的 应用。 这个 可能 是 理解 是 AI 比较 擅长 来做 的, 包括 他 来 判断 这个 是 树叶, 就像 你说的 是 树叶 是 人是 猫。
对 吧? 对, 其实 对。 学习 发展 之后 出现 的 几类 任务 范式。 就 不管 是 语音 还是 文本, 还是 图片 的 模态。 最 经典 的 几个, 一个 是 分类, 这个 其实 是 相对 比较简单 的。 第二个 就是 检测, 像 我们 那些 工业 质检 里面, 把 那些 有 破损 的 地方 给 识别 出来。 还有一个 就是 分割, 可能 对于 文本 来说 有一个 典型 任务 就是 抽取, 就是 把 一段话 里面 的 什么 主谓宾 时间 给 抽出来。 其实 这 一类 就是 我们 常见 的 认为 的 是 理解 式 任务。 其实 现在 理解 是 任务, 我们 认为 不管 是 技术 打磨 还是 产业 落地, 都 已经 还 蛮 成熟 的 了。 包括 看到 A I 在 大规模 的 产业 应用 里面, 也都 是 这种 理解 式 的 任务。
你们 觉得 生成式 AI 它 算 通用 人工智能 的 一部分 吗?
算是, 其实 背后 对应 的 是 大 模型。 虽然 我们 今天 提到 大 模型 的 时候 都会 去 提 AIGC, 但是 值得注意 的 是 大 模型 它 不是 只能 做 AIGC, 它 做 理解 式 任务 的 效果 也会 比 小 模型 或者 普通 模型 要 更好。 大 模型 它 同时 能 做 理解 类 任务, 又能 做 生成式 任务。 这个 其实 就是 它的 A G I 特性 的 体现。 它 确实 是一个 通用 模型, 它 一个 模型 能够 做 很 多种不同 的 任务。
对 从 你们 个人 的 角度, 你们 相信 通用 人工智能 可以 实现 吗?
对我 我 个人 的 角度 我是 相信 的, 因为我 觉得 这是 必须 要 去 解决 的 一个 问题。 就现在 整个 A I 产业 的 发展 太 过于 碎片化 了, 我们 落到 每个 场景 都 得 专门 再去 做 一个 模型, 去 做了 一个 模型 背后 是 大量 的 数据 算 力, 包括 科学家 的 成本。
人工 有 多 智能, 背后 就有 多少 人 对。
这个 背后 这 不是 一个 技术 落地 该 有的 范式。 任何 那种 我们 看到 过去, 比如说 电 这个 技术, 它 大规模 的 进入 千家万户, 它 其实 就是 形成了 比较 统一化、 集 动化 的 基础设施, 会有 各方 分工 比较 明确 的 分发 渠道, 再 让 这个 技术 各方 得到 应用。 而 不是说 每 一家 我们 都要 去 有一个 能够 去 发电 的 人 去做 相应 的 事情。 所以说 我 觉得 A I 技术, 我们 既然 把 它 当做 一个 装 了 技术 范式 的话, 它的 演变 逻辑 一定 是要 往 通用化、 标准化。
模块化 去 走 的。 从 我的 角度, 我 还 挺 喜欢 卡 马克 说 的 那句话。 卡 马克 就是 之前 澳洲 的 首席 科学家。 他是 在 领域 里面 很少 又 懂 游戏, 又 懂 A I 又 懂 V R 又 懂 图形学 的 人。 然后 他 可能 在 20年 去 做了 自己的 一家 A G I 公司。
带着 他的 儿子 是 今年? 是 20年 吗?
今年 爆 出来 的 新闻, 但是 他 从 20年 就 走了, 去 干 A G I 了。 那时候 也有 一波 报道 的, 可能 今天 这个 公司 才 成立, 或者 是 正式 对外 要招 人 之类 的。 我不知道 最近 为什么 这个 新闻 会 迟 后 两年。 他 最近 说 了 一句话, 他说 今天 通往 A G I 的 路径 可能 已经 存在 于 我们 现在 已有 的 人类 的 信息 的 各种各样 的 教科书 和 知识库 里面 了。 只不过 我们 还没有 以 正确 的 方式 把 它们 组合 起来。 应该。
但是 我 同时 也 看到 了 一些 学者, 包括 人工智能 界 的 顶级 的 大拿 去 兑 john 卡 mark, 他们 觉得 A G I 不 靠谱, 同时 也有 这样的 一个 观点。 当然 今天我 觉得 两位 都 还是 比较 属于 乐观 的 一派。 对, 好, 谢谢 家康, 谢谢 jack。 今天 聊 的 非常 的 精彩。
感谢 大家。 谢谢。 好。
谢谢 大家。 这就是 我们 今天 的 节目。 如果 大家 喜欢 我们的 节目, 可以在 苹果 播客、 小宇宙、 喜马拉雅、 蜻蜓 F M、 网易 云 音乐、 Q Q 音乐 上来 收听。 我们 海外 的 听众 可以 通过 苹果 播客、 谷歌 播客、 amazon music 和 spotify 来 收听 我们。 今天 我们 嘉宾 所有的 言论 仅 代表 个人, 而不 代表 他们的 供职 单位。 感谢 大家 的 收听。 关于 AIGC 大家 有 什么样 的 想法, 或者 你们 有什么 更好 的 创意, 欢迎 给 我们 写 评论, 写 留言, 谢谢。