We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode S3E87|一句话生成图片初体验,AI挑战艺术家谁会赢?|AIGC特辑

S3E87|一句话生成图片初体验,AI挑战艺术家谁会赢?|AIGC特辑

2022/10/20
logo of podcast 硅谷101

硅谷101

AI Deep Dive AI Chapters Transcript
People
汪昭然
钟凯祺
黄泓君
Topics
黄泓君:本期节目探讨了一句话生成图片技术的爆火及其应用,并指出该技术引发的争议,以及未来发展趋势。 钟凯祺:分享了使用AI绘画工具的个人体验,包括高质量、访问限制、安全性等方面,并指出了图片质量受随机种子和prompt影响,以及图片好坏评判的主观性。 汪昭然:分析了可控生成是AI大模型应用于实际场景的重要障碍,并探讨了如何通过用户的反馈来改进模型,以及数据确权和版权等问题。 黄泓君:探讨了Midjourney和DALL·E 2等模型的优劣,以及如何提升AI绘画效果,包括利用素材库和艺术家风格关键词,并指出获奖作品《太空歌剧院》并非完全由AI生成,而是经过人工精修。 钟凯祺:分享了个人创作AI绘画的经验,包括明确指定艺术风格和细节描述的重要性,以及AI模型的in painting和out painting功能。 汪昭然:分析了AI绘画效果受多种因素影响,包括模型本身、训练数据和用户描述的精确度,并探讨了用户与AI模型的交互过程本身就是一种反馈机制。 黄泓君:介绍了Meta的一句话生成视频技术及其山寨方法,并探讨了视频生成技术面临的挑战,包括保证视频中元素的时间序列一致性。 钟凯祺:分析了Meta的Make-A-Video模型在视频生成质量上的提升,以及AI视频生成技术面临的挑战,包括对三维空间和视觉效果的理解。 汪昭然:探讨了不同AI模型的技术差异,以及产品化策略和社区建设的重要性,并分析了AI模型的数据确权和版权问题,以及AI生成内容的安全性和可控性问题。 黄泓君:探讨了AI生成图片的版权归属问题,以及AI技术生成虚假内容带来的安全挑战。 钟凯祺:分析了不同AI模型的美学风格差异,以及数据来源和版权协议等问题。 汪昭然:探讨了生成式AI可能改变艺术家的商业模式,从卖画到卖风格,以及生成式AI未来成为新时代搜索引擎的可能性,并分析了生成式AI对各行各业从业人员的影响,以及未来工作方式和效率的改变。

Deep Dive

Chapters
本期节目讨论了AI一句话生成图片的体验,嘉宾们分享了各自使用Midjourney和DALL·E 2等模型的感受,并指出可控生成是目前大模型应用的重要障碍。
  • AI一句话生成图片技术爆红网络
  • 嘉宾们分享了各自的试用体验,包括生成科幻题材图片、中国国画风格图片等
  • 可控生成是目前大模型应用的重要障碍
  • Midjourney生成的图片比DALL·E 2更加精细

Shownotes Transcript

欢迎 收听 硅谷 101, 这是 一档 分享 当下 最 新鲜 的 技术 知识 与 思想 的 科技 博客。 我是 黄军。 最近 在 整个 A I 圈 有一个 现象 特别 火, 就是 大家 非常 喜欢 用 一句话 去 生成 图片。 然后 我们 也 看到 网上 推特 上 有 很多很多 传播 的 A I 生成 的 美图。 并且 我 注意到 经济学人 这本 杂志, 他们 有 一期 的 封面 也是 用 A I 来 制作 的。

同时 在 上个月 美国 科罗拉多 的 一个 博览会 上, 有 一幅 名叫 太空 歌剧院 的 作品。 在 一个 数字 艺术 的 类别 里面, 多得 了 第一名。 原本 我们 说 一个 作品 他 夺得 了 第一名, 本来 没有 什么 特别 大惊小怪 的。 但是 因为 这 幅 图 它 并 不是人 创作 的, 而是 机器 创作 的, 之后 就 引起 了 一些 争议。 至于 这些 争议 是什么, 我们 待会儿 可能 会 在 节目 里面 聊到。 那 今天 我们 就 来 讨论一下 一句话, 生成 图片 到底 是 怎么回事。

这是 我们 A I 特辑 的 第一集, 接下来 的 一集 我们会 讨论 中国与美国 市场 生成式 A I 的 格局, 还有 主流 玩家。 因为 毕竟 现在 这个 是 创投 还有 融资 最 热 的 一个 领域。 接下来 的 一集 也 非常 的 精彩, 欢迎 大家 持续的 关注 我们。 跟 我们在一起 讨论 的 是 西北大学 工业工程 及 管理科学 系 和 计算机科学 系 助理 教授 汪 兆 然。 Hello, 赵然, 你好。

你好你好。

欢迎 来 做客 硅谷 101.

谢谢您 的 邀请。

还有 一位 是 大厂 的 数据 科学家 钟 凯奇。

Hello 凯奇 你好, hello 你好你好。

因为 大家 其实 都有 试用 过, 不管 是 大二 还是 mini journ 这些 模型, 你们 可不可以 讲 一下 你们 自己的 试用 体验?

对我 试用 体验 基本上都 在 朋友圈 里面, 一开始 是 试用 的 咖喱, 它 有 一些 access 的 限制, 而且 要 排队。 所以 你看 OpenAI 确实 也 不是 那么 open, 对 吧? 好不容易 借 到了 一个, 我 觉得 质量 还是 非常 高 的。 一开始 非常 的 令人震惊。 比如说 我 试出来 的 一些 科幻 题材 的 prompt, 我 觉得 质量 确实 非常 高。 就是说 你 提到 的 所有的 实体 以及 风格, 基本上都 会 出现 在 这个 图像 里面。 甚至 我 试 过中国 国画 画风 的, 他 其实 捕捉 的 也 相当 好像 这个 道士 风格 的, 他 其实 捕捉 的 都 挺好的。 好 莱士 的这 几个 就 大同小异, 只不过 它 没有 一些 access 的 限制。

在 安全性 方面, open I 做 的 其实 挺好的。 像 您 所说, 它 过滤 掉了 非常 多 的 关键词, 对 吧? 不能 出现 特定 的 人物 以及 一些 政治 相关 的这 也是 他们 之前 成立 了 A I safety 和 一些 ethics 的 团队 是 有关系 的, 可能 这也是 他们 其中 理由 之一。 为什么 不愿意 完全 把 这个 东西 放开? 因为 不可避免 的 这些 人 会 拿 它 来 生成 一些 比较 危险 的 不 健康 的 图片, 对 吧? 那你 在 其他 公司 你 就会 发现 这些 东西 都 随便 生成 的, 所以 这也是 一个 潜在 的对 社会 的 影响。 这个 在 学术界 其实 讨论 也 非常 多。

刚刚 说 你 生成 的 东西 都在 你的 朋友圈, 我 赶紧 去 刷 了 一下 你的 朋友圈。 我看 你 有一个 作品 是 仿生 人 会梦 到 电子 羊 是 啥样。 这个 作品 里面 有 一片 草地, 有 一些 电子 羊 在 草地上 吃 草, 我 觉得 生成 效果 很 惊艳。 我不知道 你的 关键词 是什么。

挺 好看 的。 我的 关键词 应该 就是 那个 小说 的 标题。 但是 像 您 所说 的, 我也 经过 了 一些 挑选, 它 一次 是 生成 五张 还是 四张? 四张 对, 三 四张, 我 选 了 最好的。

我 觉得 这也是 一个 非常 有意思 的 问题。 就是 不同 的 随机 种子, 不同 的 prot 它 生成 出来 的 图片 其实 差 的 是 非常 多 的。 然后 到底 什么样 的 图片 是 好的? 其实 这 某种意义上 是一个 艺术 问题, 跟 人的 喜好 也有 关系。 但 如何 把 这个 东西 变成 一种 反馈, 加入到 一些 prompt 的 自动 搜索 里面, 我 觉得 这 是一个 非常 有意思 的 问题。

或者说 像 一个 文本 模型, 你 怎么做 这种 可控 的 生成, 你 不 希望 他 讲 错话, 甚至 逻辑 上 你 不 希望 他 讲 的 是一个 怪怪的 意思, 你 也不 希望 他 胡说八道, 因为 会 触发 很多 不同 的 结果。 这 可控 生成 我 觉得 可能 是 这些 大 模型 应用 到 实际 场景 的 一个 重要 的 障碍。 就是说 如果我们 有 办法 能克服 这个, 我 觉得 就 会有 很多 新的 更加 严肃 的, 不是 那么 偏 艺术 的 应用 就 开始 做了。

关于 图片 大家 觉得 哪一个 是 好的, 哪一个 是 不好 的? 这个 标准 的 界定 是 非常 难 的。 就 比如说 我 刚刚 提到, 我 昨天 也有 生成 我们 上 一期 的 播客 封面 图, 在 我 朋友圈 就 发 了 两幅 插画, 也是 我自己 昨天 生成 的, 就是 马斯克 收购 推 特案 的 两幅。 我 就 问 大家 一好 还是 二 好, 结果 我 发现 这 两幅 的 评论 基本上 是 打平 的。 就 可能 我 朋友圈 上 认为 二更 多一点, 然后 即刻 上 几乎 一边倒 的 认为是 一。

我也不知道 为什么 会 出现 这种 现象, 但 总体 来说 我的 感觉 就 以 现在 我的 关键词 去 生成 的 这样的 一些 图片, 整体 上 还是 处在 一个 稍微 初级 一点 的 水准。 就是 他 没有 那么好。 我 昨天 是用 的 二式 的, 然后 我 今天 是用 mid journey 式 的。 我 觉得 mid Julie 的 图片 会 比 大二 要 更加 精致。 这一点 它的 清晰度, 画的 颗粒度, 整体 上 感觉 它的 细节 是 更 丰满 的。

为什么? 我想 问 你们 这个 创作 过程 呢? 这是我 自己 在 输入 的 时候, 虽然 我 只 体验 了 两天, 是一个 非常 初级 的 小白 用户。 我 觉得 有 一些 有意思 的 经历 可以 看出 这些 模型 它的 一些 价值观。 就 比如说 我 刚刚 提到 我在 用 马斯克 收购 推 特案 去做 一个 题目。 但是 最 开始 我 直接 在 标题 里面 去 输 这个 名字 的 时候, OpenAI 直接 告诉我 说 你 所 搜索 的 东西 是 敏感 内容。 那 我 大概 可以 想到 就是 因为他 有人 的 名字, 对 吧?

接下来 我 就 开始 去 想, 我要 去 如何 构建 我的 创意。 比如说 把 一只 小鸟 关 在 笼子 里, 表示 推特 被 关 在 笼子 里 的 那种感觉。 结果 它 真的 生成 了 一个 笼子, 里面 有 一只 真实的 鸟。 后来 我 加 了 卡通, 然后 它 就成 了 卡通 风格, 但是 画面 非常 的 单调。 就是我 大概 试 了, 我 想想 一次 生成 四张图, 我 今天 数 了 一下, 我 大概 生成 了 180 多张 图, 这是 多少次? 是 到 最后 我的 关键词 是 手机 屏幕。

在 法庭 庭审, 法庭 在 火星 上, 就 为什么 我要 加 最后 一句 法庭 在 火星 上, 因为 不加 这个, 它的 那个 画风 就 非常 的 写实 跟 奇怪。 我 感觉 加一点 外太空 或者 space 这种 元素, 它 会 让 整个 的 画面 一下子 有 艺术 感。 很 我 这 大概是 我自己 的 一个 经历。

我 也可以 分享 一下 我自己 创作 的 一半 的 过程 是 怎么样。 我也 经历 过 你 这是 非常 痛苦 的 阶段。 但是 我 就会 建议 一般 身边 的 朋友, 如果 去 试 的话, 有 一些 走捷径 或者说 是 吸取 人类 智慧 精华 的 妙招。 就是现在 会有 一些 prompt cp 比如说 我喜欢 用 的 那个 叫 crea 到 A I 大家 也可以 推特 上 搜, 有 很多 这样的 类型。 比如说 你 想 去 找 mask 相关 的 那些 图片, 你可以 先 直接 把 它的 名字 tab 进去, 它 会有 一些 已经 生成 出来 质量 不错 的 图片。 然后 你 去 模仿 他的 一个 prom 的 写法, 甚至 他 会 把 它的 随机 选择 都 告诉你, 保证 你可以 在 这个 模型 当中 也 试出 同样 接近 的 效果。

大家 已经 意识 到了 A I 存在 这么 一个 对人 语义 理解 可能 存在 一定 问题, 加上 图片库 可能 主流 并不是 这样 一些 工具 图 的 原因 造成 的 问题。 所以 大家 会 去 把 这样 一些 智慧 方法论 总结 到 一起, 等于 是一个 社区 去 一起 帮助 我们 更好 的 用 起来。 A I 也 正好 的 理解, 我们 等于 达到 一个 类似 于 像 数据 飞轮 的 这么 一个 效应。

你 自己 还有什么 你 觉得 生成 图片 中有 经验 的 部分, 可以 跟 大家 介绍 一下 你的 使用 经验。

好啊 好啊, 我记得你 之前 提到 过, 看到 过 一幅 照片, 后面 全 是 图书馆 的 书, 然后 前面 是 几个 机器人, 那个 就是我 画的 那个 画的 过程 当中 感觉 比较 重要 的 事儿 就是 后面 一定要 去 学 很多 风格 的 装饰, 甚至 你 要 的 艺术家 风格 要 明确 的 告诉他。 比如说 在那 一幅 图 里面, 我 就 很 明确 的 说 是一个 比较 中古 的 油画 风。 去 看到 一个人 和 一些 机器人 一起 合作 的, 在 一个 巨大 的 古老 的 图书馆 当中 一起 工作, 把 这种 感觉 给 描述 出来, 越 精确 越好。 接下来 就是 去 试, 结果 可能 试 了 大概 20次左右, 已经 得到 一个 不错 的 结果。 再 去看看 有没有 别人 有 一些 更好 的 方案 这 样子 这 还 挺好玩 的, 像 拆 盲 盒 一样。

有的 说 你说 到 这个, 让 我想 起来 就是我 刚刚 在 片头 提到 了 这 幅 获奖作品, 叫做 太空 歌剧院。 我 其实 看 了 那幅 作品, 我 觉得 他 绝对 不是 一个 一句话 生成 图片 的 初级 玩家, 他 一定 是个 高级 玩家。

是 那幅 图 是 精修 过 的。

怎么 精修?

就是 要 参赛 的 图片 一般 是 先 用 make journey 画 一个 底稿, 专业 的 画家 会 在 这 基础上 再去 对它 做 一些 精修。 用 电脑 做 精修 原画 是 现在 一般 真的 用 的 这么 一个 方法。 一种 是 直接 打出 底稿 之后 用 这个 来做 精修。 还有 一类 就是 直接 做 局部, 我在 某 一个 局部 想要 什么, 把 这个 做出来, 然后 再 把 几个 局部 的 图片 捏 起来, 做自己 想要的 构图, 这 几类 的 方法 都有。

现在 不太 是 完全 直接 用 A I 指数 图, 它 就像 摄影 技术 刚刚 产生 的 时候, 大家 用 摄影 也 不太好 直接 出。 因为 可能 有 这种 过度 曝光 等等 的 原因, 还要 在 弄完 之后 加 很多 的 操作。 这个 逻辑 也是 一样的, 等于 现在 还在 一个 我们 和 A I 作 画技 不断 磨合 去 进步 的 这么 一个 过程 当中。

其实 我们 自己 生成 的 那幅 图 上 的, 比如说 twitter 的 logo 跟 我们的 logo 也是。 后期 打上去 的, 它 不是 一个 直接 电脑 生 出来 的 结果。 但 我 刚刚 其实 想说 的 就是 那幅 图 它的 作者 并不是 我们 想象 轻而易举 就能 拿 奖 的。 我自己 在 玩儿 了 以后, 我知道 他 要 生成 一幅 这么 漂亮 的 图, 他 得 有 多少次 的 试验。 就 像你 刚刚 说 的, 他 可能 得 知道 很多 绘画 的 关键词, 绘画 风格、 绘画 流派, 包括 他 大脑 中 对 这个 绘画 的 构图。 他 精确 地 描述 给 机器 了, 才能 有一个 比较 好的 底稿。 之后 我们 说 要不要 用 P S 来 修, 感觉 还是 有 门槛 的。

其实 这 里面 也 涉及到 这些 模型 有 两种 能力, 一种 叫 in painting, 就是说 我 把 这个 局部 挖掉, 它 能够 给你 生成 不同 的 局部 让 你 去 选。 还有 一种 opening, 就是说 我 先 有一个 图片, 我可以 往 外 拓展。 当然 还有 一些 它 可以 把 一个 图片 作为 输入, 就是 当成 一种 图片 的 prompt, 再加上 描述 再 进去 生成。

我 觉得 这个 过程 有 一部分 原因 是因为 比如说 训练 数据, 或者 模型 本身, 或者 分辨率 这 之类 的 问题, 导致 生成 出来 不是 你想要的 像 那个 锤子 的 问题。 但 很大程度 上 我 觉得 是人 自己的 需求 方面 的 描述 不 精确。 其实 就 跟 甲方 和 乙方 是 一样的。 你 跟 乙方 不 迭代 个 十次, 就是你 可能 还真 拿 不到 你想要的, 就是 人都 这样的 模型 估计 也是 这样。 但 这个 交互 过程 其实 你可以 看成 是 人和 机器 的 一种 往 高端 说是 博弈。 实际上 你 就在 跟 他 作对, 至少 你 要 跟 他 进行 一些 沟通, 对 吧? 我 其实 特别 感兴趣 这个 过程, 就是说 你 怎么 收集 这个 反馈, 让 他 明白 你想要什么。 一部分 是 通过 prot 未来 能不能 通过 一些 更加 直接 的 输入, 比如说 我 能 直接 把 我的 需求 描述 直接 给 到 他的 一些 权重 上面 去, 这些 我 觉得 都是 非常 有意思, 一些 方向 就是 可以 去 探索 的。

你 提到 的 反馈, 其实我 现在 想到 的 有 几个 点。 一个点 是 像 大力 two, 你 生成 了 以后, 它 上面 有一个 按钮, 就是 surprise me 大概 但是 你 觉得 这 幅 图 生成 的 非常 好, 如果你 点 了 这个 按钮, 我不知道 这 是不是 他们 内部 也 收集 反馈 的 一种 方式。 第二种 是 就 比如说 它 生成 了 一堆 的 图, 我会 用 这 张 图 在 图生 图, 或者说 我会 把 它 下载 下来。 我想 这些 应该 都是 一些 反馈 的 渠道, 包括 像 Midjourney, 他 也会 写 在 你 生成 的 你 需要 哪 几张。 大家 的 每一次 操作 都 是一个 给 机器 的 反馈, 但是 更 细节 的 反馈 就是 两幅 高质量 的 作品 哪个 更好, 这个 就 很难 了。

其实 你 已经 看到 他 那个 本质 问题, 这个 在 强化 学习 里面 其实 也 经常 会 遇到 这个 问题。 比如说 你 怎么 设计 一个 奖励 的 函数, 让 机器人 来完成 你 想要 做 的 工作。 我们 看到 那些 非常 成功 的 例子 都是 手动 设计 的 非常 好的。 但 实际上 人是 没有 办法 直接去 设计 一个 数值 的 奖励 函数 的。 所以 现在 对 应用 很 重要 的 研究 方向 就是说 怎么 通过 人的 偏好, 比如说 他的 反馈 是 排名, 或者 yes or no 是 说 this one of that one, 就是说 我们 选 其中 的 一个 或者 多 选 一 也可以 这样 类型 的 反馈 来 反向 推断 一个 这样的 奖励 函数。 这个 问题 在深圳 模型 里面 也是 一样 会 遇到。 所以 这是为什么 我 觉得 是一个 很 有意思 的 问题, 而且 似乎 是 非常 常见 且 通用 的 一个 技术。

你 这么 一说, 我 突然 明白 他 为什么 每次 都要 让 我们 四选 一了。

对, 总能 碰上 一个。

对对对, 就是 至少 是 让 我们 比较 一下 相似 的 四张图, 给他 一个 反馈。

没错。

我看 最近 还有一个 也是 比较 火 的 方向, 就是 最近 meta 他 也 发 了 一篇 论文, 他 就说 他 可以 一句话 生成 视频, 大家 有 关注 这个 事情 吗?

对我 看 了 那个 文章 也 关注 了 一些 其他 的 比较 山寨 方法 生成 的, 其实 质量 也 挺好的。

我 其实 更 好奇 什么 山寨 的 方法 生成。

我不知道 您 看 没 看过, 就 一个女生 在街上 走, 她 通过 搭理 一张 一张 的 把 他 穿 的 衣服 做 in painting, 换成 不同 的 时尚 单品。 然后 手 动用 一个 视频 生成 的, 也是 一个 工具, 把 这些 图片 给 拼成 一个 看起来 非常 流畅 的 视频。 这也是 一个 手动 的 一个 pipeline, 它 也可以 自动化, 就是说 生成 的 也 还 挺好的。 就 看着 它。

相当于 其实 就是 生成 一堆 图片, 再 把 这些 一堆 图片 整理 成 视频。

对的, 但 技术 上 你看 meta 是不是 其实 也是 跟 生成 一堆 图片 拼 起来 也是 有 相似之处。

对 吧? 对我 没有 看过 那 篇 论文, 如果 你们 看过 能不能 简单 跟 听众 讲 一下?

没有, 我就是 大致 看 了 一下, 而且 看 它的 生成 的 那个 质量 其实 也是 有点 小卡 的。 你看 其实 大概 就是 图片 拼 起来 的。 当然 这 里面 更多 的 技术细节, 这 肯定 会 变成 很多人 研究 的 领域。

比如说 你 怎么 让 图片 前后 它 有 一些 时序 上 的 一致性, 对 吧? 比如说 我 踢 了 一个 足球, 下 一帧 它 这个 足球 是 往前飞 而 不是 往后 飞。 他 可能 是 有 一些 滤波 对 吧? 这样的 一个 预测。 这个 其实 在 视频 的 研究 里面 其实 是 有 很多人 做 过 这个 我不是 这方面 专家, 但是 我知道 时序 的 这些 一致性 其实 是 非常重要 的。 但是 这个 其实 已经 比 图片 往前走 了 一大步 了。

同时 你 如果 看 youtube 和 哔哩哔哩 上面 是 有 很多 非常 有意思 的 视频。 它是 这样的, 就是说 把 一首歌 的 歌词 作为 prompt 全 扔 进去 生成 一个 M V 当然 版权 怎么样 不好 说, 因为 这个 很 复杂。 但是 有 一些 视频 它的 前后 一致性 是 做 的 非常 好的, 画风 是 非常 一致 的。 可能 是用 了 一些 特殊 的 prompt 的 一些 部件, 但 有些 就 前后 一致性 不 太行, 因为 它 就 随时 就在 换 画风。 所以 这个 是不是 能够 通过 prompt 的 一些 特定 的 设计, 能够 找到 这样 一致性 比较 好的。

当然 就是 M V 它的 一致性 不要 太好, 因为 他们 不会 有 个 足球 飞去。 他 只是 说 前后 的 画风 差不多 就行, 对 吧? 这个 其实 现在 通过 图片 已经 可以 做到 视频 看着 还行 的 地步 了。 我 觉得 但是 做 的 更好 的, 我 觉得 还是 一个 需要 研究 的 方向。

挺 有意思 的。 你 刚刚 提到 那个 视频, 我看 B 站上 有一个 也是 根据 A I 它 也是 图片, 叫做 漠河 舞厅。

对 吗? 对, 那个 是 最 火 的 那个。

你们 看 了 吗? 对。

看 了, 做 的 挺好的。

凯奇 对 那个 meta 的 一句话 生成 视频 它的 名字 叫做 make a video。 你 有什么 新的 补充 吗?

我 理解 其实 视频 和 图片 最大 的 差别 就是 它 多了 前面 所说 的 时间 序列 这 一条线。 因为他 把 时间 的这 一条 引入 了, 我 也没有 细看, 但是 我知道 它是 整一个 思路, 是 加入 了 很多 spac 和 tempo 的 一些 逻辑。 但是 总体 的 思路 并没有 和 之前 deficit model 有 很大 的 差别。 比如说 前面 突然 提到 的 uni t 在 模型 当中 仍然 有用 到, 然后 目前 的 视频 质量 在 meta 已经 刷新 了 之前 大部分 的 视频 的 生成 质量。 不过 我 理解 和 真正 可以 用 的 那些 短 视频 也好, 长视频 也好, 还有 一定 差距。 可能 会 在 帧率 上、 分辨率 上 会 觉得 有点 一茬 一茬 的。

包括 当中 一些 A I 对 片 生成 的 理解, 和 我 之前 自己 画图 的 时候 感觉 有点像。 就是 A I 生成 的 有的 时候 它 对 同一个 实体 或者说 同一个 人, 你 想 生成 的 那一个人 是不是 一直 长 得 一样, 以及 三维空间 的 理解。 比如说 一些 视觉 的 透视 效应, 镜子 一个 镜面反射 这样的 理解。

目前 图片 生成 有的 时候 还是 会有 一些 奇怪 的 bug, 很 适合 画 一些 魔幻 的 风格。 但是 当真 的 到 写实 做 一些 视频 的 时候, 他 可能 会 做 视频 的 一个 瓶颈 这 样子。 所以 我 理解 这 一块 现在已经 做得 很 不错, 但是 可能 要 成为 真正 工业 可用 到 图片 这 level 应该 还有 一定 的 距离。

对, 因为我 看 像 那个 OpenAI 的 大二 模型 的 时候, 他们 在 举例子 的 时候, 其实 特别的 是 有 举例。 我们在 一个 游泳池 里加 一只 天鹅, 然后 你 把 它 加上 去了 以后, 他的 那个 天鹅 还是 有 倒影 的这 就 证明 他 能 理解 水 是 有 倒影 的。 或者说 以后 假设 在 生成 视频 的 时候, 你是不是 能 理解 镜子 可以 照 出 一个 同样 的 物体 的 大量 这种 需要 突破 的 地方。 包括 现在 比如说 我们在 录 这个 播客, 你 后面 的 白板 它 会不会有 一点点 的 光影 的 反射, 可能 这些 以后 都会 是 视频 生成 的 问题。

是的, 我 觉得 也会 是 和 视频 一样 挺快。 突破点 是 3D生成 都 会有 非常 大 的 应用 场景。 因为 不光是 画图 也好, 你 想象 一下, 如果我们 生成 一个 就像 前面 说 的 天鹅, 但是 我们 可以 用 360度 全景 转 一圈, 围着 这个 天鹅 转 一圈。 其实 对 不光是 生 视频 生成 影视 行业 也好, 可能 还有 一些 就是 体育 行业。 我们 看 球 的 时候 想 看 一个 场景 到底 在 这个 角度 是 什么样 的。 然后 对于 文物 修复 甚至 电商 场景, 就是 我们 当我 买 一个 东西 的 时候, 想 去 看 这个 东西 它 大概是 上升 或者 怎么样, 是一个 怎么样 生成 效果, 都 会有 很多 的 作用。 所以 我 感觉 3D和 视频 会 是 现在 技术 正在 突破 对折 难关, 然后 突破 了 之后 会有 很多 更多 可以 玩 的 事情。

对我 之前 有 听说过 这个 游戏 公司 会 用 A I 去 生成 他们的 游戏 场景。

是的, 有 做 文本 生成 的, 也有 做 一些 原画 的 生成 的, 找 一些 灵感 这 样子。

其实 我们 刚刚 提到 了 很多 的 模型, 还有 公司, 包括 其实 我们 刚刚 没有 提到 谷歌。 谷歌 也有 做 一个 模型 叫做 imagine。 比如说 像 OpenAI 的 dali tu stable diffusion mid journey, 还有 谷歌 的 imagine。 你们 觉得 这些 模型 是什么 决定 他们 火 跟 不 火, 以及 他们的 核心技术 会有 什么 区别 吗? 我 能 想到 从 用户 的 角度 会有 一些 简单 来说 生成 的 图 好看 跟 不好看。 但是 从 专业 的 业内人士 的 角度, 你们 觉得 是什么 在 影响 他们的 核心 竞争力?

我 觉得 技术 上 大同小异, 主要 两个 部分, 语言 模型。 比如说 谷歌 有 自己的 语言 模型, 就是 T5 这个 系列 的, 它 就有 不同 型号 的, 然后 越做越 大。 它的 图片 生成 模型 是一种 叫 超 分辨 扩散 模型。 它 有一个 从小到大 的, 从 粗糙 到 细致 的 叫 true super, 就是 超 分辨 的 技术。

除了 模型 之外, 其实 跟 它 在 什么样 的 数据 上 训练 也有 关系。 像 谷歌 发 的 很多 的 文章, 他们 其实 是在 一些 私有 的 数据 上, 特别 大规模 的 数据 上, 有可能 是 公司 的 搜索引擎 爬下来 的 数据 上面 进行 生成 的。 每个 公司 它 可能 是用 不同 的 模型 架构, 但 这个 模型 架构 大多数 还是 比较 类似的。 可能 有 一方面 的 区别 是 来自于 数据, 特别是 数据 的 标定。 比如说 文字 是 怎么 跟 图片 形成 一个 配对, 就像 之前 开启 说 的 clip 上面 就是 怎么 配对 的, 跟 数据 也有 关系。 像 stable 就是 fusion, 它 也有 自己的 训练 数据。 所以 这就 导致 了 为什么 我们 看到 的 东西 很多, 就是 有的 东西 生成 的 好, 有的 东西 生成 的 好, 跟 它的 数据 到底 有 多少 张 这样的 图片 是 有 很大 的 关系 的。

是的, 我也 认同。 就是 目前 技术 上 总体 是 大同小异 的。 可能 他们 真正 会 产生 区别 的 就是说 接下来 他们 怎么 产品化, 怎么做 一个 好的 社区。 因为 目前 在 这样 一个 从 文字 到 图片 这个 过程 当中, 社区 本身 的 质量, 用户 提供 反馈 的 质量, 以及 公司 怎么 把 反馈 落到 模型 上, 让 模型 更好。 就是 前面 张安 所说 的, 设计 一个 好的 奖惩 机制, 奖惩 的 函数, 一个 目标 函数 来 让 模型 更好 的 学到 到底 图片 质量 如何。 这个 可能 会 是 接下来 让 他们 真正 有 区别 的 一个 领域。

同时 他们 还 可能 去做 一些 to b 的, 或者说 是对 某 一些 细分 场景 的 落地, 或者 是 对于 某 一些 风格 的 落地。 比如说 目前 with journey 整体 是 比较 西式 美学 的。 他 很多 时候 画 一些 美 漫 风格, 那样 风格 的 会 特别 好感觉 风格 上 特别 一致 等等。 每 一种 模型 都 会有 自己的 美学 风格 上 的 差异。

美学 风格 是什么 决定 的?

美学 风格 就是 一块 是 数据集, 因为 本身 有什么。 第二块 是 整一个 训练 和 推理 过程。 他们 会 在 过程 当中 不断 的 去 调试, 来 设置 一定 的 函数, 来 保证 达到 的 效果 是 他们 想要的。 他们 会对 某 一季 的 一致 的 美学 风格 去 给 一些 征兆 的 打分, 这 样子 等等 的 方式 来调 优 每一个 模型 自己的 美学 风格。 当然 这 一块 我不是 很 专业, 但 我 看到 过 有 一些 专业 的 画师 在 用了 各 大 产品 非常 详尽 的 评测 之后, 对 他们的 美学 风格 是 有 一定 的 差异 的 评价。

的那 他们 一般 的 图片 收集 会 是从 哪里 来 的 呢?

我记得 是 对于 大部分 模型 来说, 是 有一个 专门 的 叫做 我 有点 忘了 名字 叫 什么, 但是 叫 excited 还是 什么的 一个 美学 的 数据库 数据集, 是 有一个 完整 的 从 动态 和 非 动态 角度 搜集 的, 从 历史 到 现在 的 一些 重要 的 图片。

大家 都 用 的 是 差不多 的 数据集, 还是 数据集 也 不一样。

比如说 谷歌, 它 会有 一些 更多 的 从 谷歌 搜索引擎 上面 得到 的, 但 他的 数据集 是 最全 的。

那 关于 数据集 的 来源, 汪 教授 有 补充 的 吗?

这 里面 其实 有一个 非常 严重 的 问题, 就是 数据 确权 的 问题。 你 这个 数据 生成 出来 模型 到底 归谁? 包括 一直 到 下 有 你的 prompt 生成 出来 的 特定 的 图片, 这个 图片 归谁? 其实 现在 有 很大 的 争议。 这个 其实 也是 另外一个 很大 的 研究 的 热点, 就是说 数据 怎么 定价, 数据 怎么 确权, 你 怎么 保护你 自己的 影子。

包括 GPT 做 代码生成, 就像 微软 现在 的 这个 产品, 就是 集成 到 V S code 里面。 它 从 giu b 上 的 代码 给 读 了 一遍, 然后 生成 出来 代码。 这个 到底 算 谁的? 有些 代码 它的 许可证 可能 不 允许 你 去 直接 抄。 如果我 的 模型 生成 出来 的 是 一模一样 的, 比如说 给你 生成 了 三行 一样的, 那你 很 可能 就 被告 了。 像 谷歌 被 oracle 告 这个 java 的 专利 侵权, 其实 是 类似的。 就算 是人 完全 看一遍, 自己 记住 再 写 一遍, 其实 也 不能 保证 完全 不一样。 所以 这个 其实 是一个 挺 大 的 问题。

具体 到 这个 数据集 里面, 如果 出现 特定 人的 脸, 就算 不是 一模一样, 但是 大同小异, 这个 到底 算不算 侵犯? 或者说 我 干脆 就 愿意 把 我的 数据 卖给 OpenAI 或者 是 stability 做 训练。 那 他 应该 给我 付 多少钱 呢? 我 下游 的 分成 应该 分 多少 呢? 这 是一个 很大 的 问题。 广义 到 经济学 上, 你 这个 信息 是 怎么 定价 的, 也是 有 很多 要 研究 的 课题。

我 觉得 这个 角度 很好, 包括 你 讲到 的 是 上游 的 给 这些 公司 收集 数据 的 数据 的确 权 问题。 其实 还有 下游 的, 就是我 片头 开始 讲 到了 那幅 获奖 的 作品, 太空 歌剧院。 我说 他 引来 了 争议, 但 我 刚刚 没有 说 是什么 争议, 其实 就是 版权 争议。 大家 觉得 这个 作品 它 算不算 你 创作 的? 它的 版权 归谁? 包括 其实我 生成 的 我们 播客 封面 图 的这 两张 照片, 它的 版权 又是 归谁? 其他人 能 不能用 我 这 两幅 图, 或者说 他 其实 有 大 two 它的 一部分 生成, 也有 我自己 P 上去 的 logo, 这个 里面 要 怎么 算? 它 其实 是 没有 任何 的 法律保护, 它是 在 一个 真空地带 的对。

是的。 但是 另外 一方面 这也是 好事儿。 就是 我们 可以 这样 想, 就 如果 出现了 一个 非常 严格 的 可 执行 的 数据 确权、 数据 定价 的 规则, 那么 它 马上 就能 形成 一个 非常 大 的 数据 的 市场。 不仅仅是 大 模型 的对 吧? 包括 现在 的 推荐 系统 用到 的 这些 数据, 本质 上 也 是从 用户 手 里面 给 骗来 的那 你 推荐 的 这些 利润 是不是 应该 给 用户 分 一部分, 就是现在 还是 非常 模糊 的 阶段, 但是 数据 隐私 现在 的 立法 已经 很 完善 了, 我们 可能 马上 也能 看到 数据 的 交易。 无论是 在 美国、 欧洲 或者 中国, 也 可能 会有 一些 政策 层面 的 改变。 在 这些 政策 下 会 听 出来 什么 机会, 这个 就 很 有意思, 有 很多 新的 挑战 需要解决。

我 稍微 补充 一点, 刚刚 我们 提到 的 在 A I 图片 生成 平台, 这些 出来 的 生成 的 作品, 他们 采用 的 版权 协议 叫做 cc 0的机制。 它是 一个 开放 版权 协议, 它的 版权 并 不完全 是 属于我 的。 比如说 我 虽然 可以 被 认为是 跟 机器 共同 创作 的 这个 作品 的 作者, 但是 这个 作品 同时 也可以 被 其他 的 人 去 使用 或者 修改。 所以 现在 应该 来说, 它的 整个 在 法律上 它是 最 宽泛 的 一种。 但 未来 会不会 收紧 我们 不知道, 我们 刚刚 提到 的 是 数据 的 隐私 的 问题。

但 另外 还有一个 是 昨天 我看见 有人 转发 了 一条 极客。 他 就是说 这个 是 一期 john rogan 是 美国 一个 非常 著名 的 播客 主持人 跟 Steve jobs 的 采访 对话。 听到 这里 大家 不知道 会不会 奇怪, 因为 大家 知道 乔布斯 已经 去世 了, 那 肯定 是 不可能 接受采访 的。 所以 第一 反应 是不是 生前 的 采访, 它 其实 是 一段 假的, 也是 A I 生成 的 根据。 比如说 john rogan 的 这个 数据 跟 以前 乔布斯 生前 的 采访 的 东西, 把 它 整理 成 的 一个 A I 的 采访 对话。 我没有 全部 听, 就是我 大概 点进去 稍微 听 了 一下, 感觉 还 挺 顺畅 的。 因为 它是 一条 相当于 是一个 假的 播客 作品。

那 以后 是不是 因为 GPT three 也能 写? A I 可以 生成 这种 大量 的 假新闻。 我记得 一句话, 生成 图片 火 之前 有 一段时间 叫 deep fake 对 吧? 这个 也很 火, 就 未来 这种 要 怎么样 去 做好 安全性 呢? 它是 就 完全 靠 这些 企业 的 道德 标准 了。

对, 这就是 一个 非常 大 的 挑战。 其实 大家 可能 也没有 什么 好的 解决 方法。 因为 从 原理 来说, 以前 我们 说有 知识产权 的 保护, 是因为 我可以 很 严格 的 比对, 你到底 有没有 侵犯 这个 专利, 有没有 超 抄袭 这个 文章。 但是 现在 很多 东西 你说 他是 抄 了, 他 也没有 完全 抄, 就是 抄 了。 但 没 完全 抄 就是 有 一些 神似。 但是 这个 在 连续 空间 上 不可能 有 两个 点, 重合 的 概率 是 非常 小 好的, 对 吧? 那多 近 才算 近。 所以 我 觉得 这些 都是 一些 需要 研究 的 问题。

然后 特别 像 这个 生成 模型, 其实 很多 时候 它 会 带来 一些 想不到 的, 就像 您 说 的 这个 deep fake 或者 是 生成 一些 很 有 冒犯 性 的 一些 内容。 这些 其实 某种意义上 也 回到 了 一些 可控 生成 的 问题 上。 什么 是 冒犯 性 的 内容, 其实 我们 可能 也都 没有 一个 共识, 对 吧? 怎么 严格 定义 立法, 定义 这些 东西, 这个 也是 本质 上。 因为 确立 规则 是在 这个 东西 出来 之后, 本质 上都 有 一些 滞后性。 甚至 在 这个 时代 已经 不太好 定义 什么 叫做 不好 的 内容。 对, 这是 非常 有 挑战性 的。 我 其实 就 非常 感兴趣 这方面 有没有 一些 简单 的 解决方案, 所以 这些 都是 一些 研究性 的 前沿。

其实我 觉得 这 一块儿 未来 会 碰到 的 边界 越来越多, 也 不断 会有 法规 完善。 可能 法规 和 整一个 业界 发展 的 磨合 会 是 不断 的 有一个 碰撞 的 过程。 原因 是因为 像 stability 的 C E O D M 在 推特 上 就是说 过, 包括 OpenAI 的 C E O sam 也 在 推特 上 说过, 他们的 最终 的 目标 生成 是 A I 的 目标, 最终 是 做 一个 类似 于 像 新时代 的 搜索引擎。 当你 去 想要 一幅画 或者 一句话、 一段 语音 等等 的 时候, 你 直接去 输入 你想要的 内容, 直接 得到 一个 根据 历史 拼接 出来 的 结果。 所以 这个 过程 当中 一定 会有 越来越多 可能 是 版权, 可能 是 安全性 这个 问题 所 带来 的。 但是 我 理解 这个 过程 确实 是一个 未来 的 趋势 以及 不 可逆 的。 然后 在 这个 过程 当中 肯定 就 会有 数据 定价。

前面 所 讨论 到 的 问题, 我 理解 这 一块 目前 技术 可能 还 暂时 不支持, 但 肯定 会有 可以 做 的 空间。 因为 目前 学界 在 做 很多 包括 深度 学习 的 可 解释性 等等 这 一块 的 探索。 如果 未来 真的 可以 定位 到 一些 图片 或者 是 音频 当中 的 所用 到 的 语料, 或者 是 素材库 的 一个 可 解释。 是的, 比如说 根据 transformer 当中 的 attention 机制 去来 定位 到 一些 真正 的 这个 图片 当中 的 对象。 它 到底 哪一个 在 图片 当中 占 比 最大, 可能 是 来自 艺术家 等等。 运用 这样的 深度 学习 的 逻辑, 或者 是用 prompt 当中 的 一些 归因 的 逻辑, 去 把 这样 一些 数据 的 源头 定价 给 算上。 这 应该 会 成为 一个 新的 搜索引擎 以及 数据 定价 的 一个 模型。 感觉 会有 很大 的 一段 发展 和 思考 的 路 要 去 走。

我 觉得 另外一个 有意思 的 问题 是你 从 艺术家 的 角度? 是不是 现在 的 商业模式 会 变? 现在 大家 卖 一个 特定 的话 去 拍卖, 比如说 成名 之后 拍卖 的 更 贵, 转卖 有 收藏, 比如说 像 N F T 这种 风格 的。 但是 另外 一方面 我们 可以 想, 如果 在 未来 作为 一个 画家, 我 有没有可能 去 卖 我的 风格, 因为我 的 风格 可以 生成 无限 多 的 类似的 风格 的 图片。

这个 其实 已经 出现了 一些 例子。 比如说 有人 就在 他的 prompt 里面 加入 一个 画家 的 名字, 这个 画家 是 专门 画 这个 龙的, 画的 特别 逼真。 大家 就说, 那 我 是不是 加入 这个 画家 的 名字, 我的 生成 出来 的 就有 他的 风格。 然后 这个 画家 好像 现在 就 遇到 了 这样 一些 法律上 的 麻烦, 就是说 到底 算不算 侵犯 我的 知识产权? 好像 侵犯 了 有没有 侵犯? 反过来 想, 对于 这 画家 是不是 也 算是 一种 新的 机会 呢? 就是我 来 卖 我的名字, 卖 我的 风格, 这个 其实 是 超越 了 一幅 特定 的话 特定 的 作品, 更 广义 上 的 一种 知识产权, 或者 是一种 艺术生 中华。 这个 我 觉得 其实 也是 一个 很 有意思 的 方向 可以 思考。

另外 还有一个 问题, 可能 是 大家 面临 的 现在 最 直接 的 一个 问题, 就是 大家 觉得 设计师 会不会 失业? 我 觉得 用 失业 比喻 可能 不 恰当。 因为 坦白说 就 我的 需求 来看, 我 觉得 现在 如果说 他 让 我 能把 设计师 换掉, 我 觉得 可能 还 达不到。 或者 这样 问 就是 以后 设计师 他 更 需要 的 技能 是什么? 他 可能 就 不再 是 画一幅 插画 了。 可能 是 像 凯奇 说 的, 我们 能把 这个 人工智能 的的 插画 来做 一个 P S 来 增加 一些 内容。

是的, 可能 未来 设计师 他 真正 好的, 如果 对 语义 能够 有 理解 的话, 理论上 来说 咱们 普通人 去 和 A I 交互, 和 设计师 和 A I 交互 传达 出的 意图 可能 是 不一样的。 就像 前面 那个 甲方乙方 的 比喻, 但是 不是 所有人 都是 好的 甲方 或者 乙方。 所以 未来 的 设计师 可能 是一个 能够 更 精确 的 把 自己 想要的 美学 风格 传递 给 A I。

A I 对他 所 作为 中 去 的 一部分, 是 帮 他 快速 的 去 找到 灵感。 比如说 当 他们 想要 去 和 一个 完整 的 游戏 当中 的 场景, 或者 是 一部 电影 当中 的 一个 人物 去做 那个 的 时候, 他 一开始 要 去做 画 很多 的 草稿。 那 如果 这个 草稿 A I 可以 去 帮 他 做, 一开始 的 他 只需要 做 很快 的 调 优 的话, 他 整一个 找 灵感 试错 的 成本 会 大大的 降低。 他 可以 真正 的 专注 在 找到 一个 灵感 之后 怎么 去 优化 它, 怎么样 去 快速 的 把 一些 素材 拼接 到 一起来 实现 自己 想要的 整个 场景 布局 等等我 理解 其实 是 对于 真正 好的 设计师 来说, 反而 是 节省 了 它的 人力 和 智能 成本 的。

我 觉得 这个 其实 广义 上 说 不仅 是 设计师? 各行各业 的, 比如说 程序员 会不会 失业? 如果我 有 GPT 生成 代码, 建筑师 会不会 失业? 如果我 把 这个 生成 模型 也 去 设计 建筑, 其实 我们 现在已经 看到 很多 例子, 不同 风格 的 建筑, 然后 你 描述 好 对 吧? 其实 就可以 了。 但 我 觉得 很大程度 上 这些 模型 都是 给你 提供 一个 选项。 比如说 它 提供 六张 图片, 还得 有人 去 选, 还得 有人 去 描述 需求。

像 凯西 所说 的, 现在 我们是 一个 非常 明确 的 区分, 谁 是 甲方, 谁 是 乙方, 我给你 钱, 你 要把 这 事儿 给 干 出来。 但 以后 可能 是 你是 大 甲方, 他是 二级 甲方, A I 可能 是 最终 的 乙方, 往后面 还有 更多 的 乙方 去 帮 他 生成 数据, 标定 数据, 甚至 有 很多 的话 去 生成 一些 风格。 比如说 人工 的 构建 一些 知识 图谱, 说 这是 这个 风格, 那是 那个 风格。 因为 我们的 数据 中 不一定 面面俱到。 比如说 我们 可能 会有 一些 cross sourcing, 就是说 把 它 外包 分包 给 很多 标定 的 劳动者, 让 他们 去 干 这件 事情, 就是 一层 一层 的 转包。

经济体 一定 是 越做越 大 的, 不会 有 特定 的 人 完全 失业。 因为 毕竟 还要 有人 把 这个 翻译 给 机器, 你 得 说 清楚 你 要 干什么。 作为 甲方, 这个 工作 其实 某种意义上 就 变得 更难 了。 这样的话 你 可能 也要 需要 雇佣 更多 的 懂 机器 的 人 去 描述 你的 需求。 所以 只是 大家 都 没有 离开 这个 体系, 可能 只是 角色 变 掉了, 然后 效率 更高 了。

我 现在 能 想到 的 就是 生成式 A I 感觉 它 未来 也会 大有可为。 至于 他 大有可为 的 地方 在哪里? 一个 是 大家 可以 听 我们 下 一期 的 播客, 我们会 聊 整个 AIGC 的 应用。 另外 大家 也可以 发挥 想象力, 可能 今天 还没有 出现, 就 我们 认为 这些 事 的 可能 只是 一个 前面 的 很 基础 的 一个 应用。 那 后面 会不会有 一些 更大 的 或者 平台 催生 一个 行业, 这个 我们是 不知道 的。 好, 谢谢 两位, 谢谢 大家 的 时间。

感谢。

对 汪 教授 今天 提 了 特别 多 非常 好的 问题, 这 可能 就是 一个 顶级 学者 的 一个 思考 能力 的 展示。 在 很多 领域 其实 提出 问题 比 解决问题 有的 时候 更 重要。 这就是 我们 今天 的 节目。

如果 大家 喜欢 我们的 节目, 可以在 苹果 播客、 小宇宙、 喜马拉雅、 蜻蜓 F M、 荔枝 F M、 网易 云 音乐 上来 收听。 我们 海外 的 听众 可以 通过 苹果 播客、 谷歌 播客、 spotify 还有 amazon music 来 收听。 我们 特斯拉 的 车主 可以 通过 它的 原生 应用 two in 来 搜索 到 硅谷 101。 另外 我们的 博客 也 入驻 到了 蔚 来 汽车, 蔚 来 的 车主 可以 直接 在 你们的 博客 页面 找到 我们的 节目。 如果 大家 对 生成式 A I 有 什么样 的 想法, 也 欢迎 给 我们 写 评论, 写 留言。 好的, 谢谢 大家。