欢迎 收听 硅谷 101, 我是 红军, 大家 过年 好。 之前 我在 节目 里面 说 要 拆解 一下 咱们 硅谷 一零一 的 工作流, 是 怎么样 运用 这些 生成式 A I 的 工具 的。 没错, 这 期 节目 就是 来 填坑 的, 正好 也 给 大家 梳理 一下 你们 平时 看到 的 博客, 还有 视频产品, 我们是 怎么 做出来 的。 大家 如果 在 听 这 期 节目 的 时候, 觉得 我们 还是 一个 有趣 的 团队。 那 我们 同时 也 正在 开放 我们 新一轮 的 招聘。 硅谷 101正在 招聘 运营、 播客、 监制、 视频 后期 文案 策划 总监。 具体 的 信息 我会 放在 播客 的 show notes 当中。 如果你 对 加入 我们 感兴趣, 欢迎 把 你的 简历 还有 代表作品 发送到 H R at SZ101点NETHR at SZ101点NE。 下面 我们 就 一起来 认识一下 硅谷 一零一 幕后 这些 超酷 的 小伙伴 们。 首先 邀请 我们 硅谷 101的视频 后期 Jacob, hello jab, 你好。
hello 红军, 你好, 硅谷 101的听众 朋友们 大家好。
对, 大家 之前 在 我们 硅谷 101的视频 中 看到 一些 非常 漂亮 这样的 视频 画面, 包括 动画 特效 都是 Jacob 来做 的。 Jab 应该 也 算是 我们 今天 所有人 中 尝试 A I 功能 最多 的 人是 我们 今天 的 主力。
对, 过去 一年 确实 用了 很多 A I 的 各种 工具 在 不断 探索, 希望能够 提高 工作效率。
还有 一位 是 张君 武, 君 武 之前 在 给 我们 写 代唐 的 稿子 的 时候, 其实 是用 了 非常 多 的 A I 的 工具 的。 待会儿 可以 跟 我们 分享 一段 这个 小故事。
好的, hello 大家好。
我是 君 武。 还有 一位 是 大家 非常 熟悉 的, 就是 我们 视频 的 主理 人 陈倩。
Hello, 谢谢 红军 的 请 hello hello 硅谷 101 的 听众 朋友们, 大家好, 我是 陈倩。
不然 先 j up 给 大家 分享 一下 A I 是 怎么 运用 到 视频 的 后期 中的。 因为我 觉得 其实 它 跟 剪辑 的 这些 软件 是 结合 的 最 紧密 的。 而且 今天 我们在 录播 课 的 时间 是在 2024年 的 2月15号, 也是 今天 OpenAI 刚刚 发布 了 sora。 因为 j up 你 之前 其实 也 用过 runway 跟 皮卡 做 生成式 视频。 我不知道 你 今天 有没有 看 sora 她的 视频 发布, 你 自己 是一个 什么样 的 感觉? 就 对比 这 几款 软件。
对, 确实 今天 早上 起来 就 看到 各种 群有 各种 朋友 同行 在 发 open I 的 新的 sa 它的 一些 效果 视频 看 了 之后 确实 是 很 惊艳。 我 觉得 在此之前 的 所有的, 甚至 是 A I 在 视频 方面 的 应用, 都 比不上 现在 就 看出来 的 这个 效果 视频 我 觉得 待会 可以 详细 的 聊 一下。 我 因为我 今天 也是 花了 一些 时间 去去 看 了 一下 他的 一个 介绍 页面, 然后 我 觉得 是 挺 兴奋 的。
我看 现在 皮卡 它 生成 视频 大概是 3秒runway, 是 4秒sora, 它 今天 已经 是 可以 生成 60秒的 视频 了。
对 吧? 对, runway 跟 皮卡 一开始 生成 的 那段 视频 是 3秒到4秒。 当然 你可以 不断 的 往后 延长 到 十几秒。 痛点 就是你 在 不断 往后 延长 的 时候, 它 后面 的 视频 会 出现 变形, 那 就会 导致 你 前后 视频 的 画面 不一致 了, 那 这 张 素材 就 用不了 了。 我是 有 发现 pick labs 在 这方面 的 表现 会 比 runway 好 一点 位, 基本上 你 十段 延长 有 九段 的 画面 是用 不了 的。 两个 工具 目前 来说 的话, 在 这方面 表现 还是 比较 弱 一点。
现在 在 我们 硅谷 101上线 的 视频 里面, 你 有用 到 过 P K A 或者 runway 的 这些 画面 吗?
老实说 还没有 大量 的 在 使用, 但是 有 一些 动画 的 设计 上面 有 一些 画面 我 其实 是 有 在 用 runway 在 进行 动画 的 生成 的。 但是 也 只是 仅限于 那 几秒 的 时间, 但 没有 太大 的 使用。
基本上 对你 来说 仅仅 是在 你 做 特效 的 过程中。 其实 现在 runway 他们的 产品 还是 很难 用到 我们 现在 硅谷 101的视频 到 后期 的 工作流 中。
对的, 因为 我们在 处理 的 视频 信息 密度 很高 的, 所以 更多 的 是 我们 怎么 把 信息 更好 的 带给 我们的 观众。 所以 很多 的 时候 信息 的 准确度, 还有 整个 动画 的 设计, 它是 一个 高度 精细化 的 过程。 但 现在 生成式 A I 能 做到 的 只是 给你 一个 很 general 的 一个 画面。 它 现在 的 作用 对我来说 更 像是 一个 无论是 平面 还是 视频 了, 就是 更 像是 一个 插画师 或者 是一个 A R artist 这样的 一个 角色。 但是 真正 说到 design, 就 是从 设计 的 层面 上去 看 的话, 其实 对我 目前 的 工作流 没有 什么 太大 的 改进。
你 刚刚 其实 有 提到 像 皮卡 还有 runway, 它 在 视频 生成 的 在 extend。 比如说 它 原本 是 3秒或者 4秒, 你 要把 它 延长 到 10秒, 他 后面 是 非常容易 丢 帧 的。 你 能 举 一个 例子 吗? 就 给 大家 一个 比较 形象化 的 描述。
就 比如说 我 现在 画面 里面 生成 了 一个 人物, 他的 背景 是 一座 山。 我 可能 需要 整个 画面 有 背景 上 的 一些 云, 他的 一些 动态 的 画面, 然后 加上 这个人 可能 是 有 一些 小小的 一些 运 镜, 就会 经常出现 的 一个 状况, 就是 他 身体 的 结构 也 在 发生 着 变化。 比如说 身体 上面 的 衣服 的 细节, 它 可能 随着 你的 秒数 不断 增高, 就是你 视频 越来越 长, 他 到了 后面 它 整个 衣服 就 变形, 跟 你 一开始 的 那个 图像 就 不 吻合 了, 会 出现 有 这种 前后 不一致 的 现象 出现。 所以 这个 对于 我 来说 挺 头 大 的。 因为 视频 的 一致性 不够 的话, 其实 那个 素材 是用 不了 的, 就 很 出 戏。
不过 讲到 这个, 我 这边 正好 有 个 小 问题, 因为 对于 我们 这些 一般 用 rain 位 或者 皮卡 比较 少 的 朋友 来讲, 能不能 大概 介绍 一下 什么 叫 一开始 从 三四秒 然后 extend 到 七八 秒。 就是 因为 它是 一个 输入 是 视频, 输出 也是 视频 的 工具。 还是 说 它 输入 是你 一般 会 看 text, 然后 输出 不是 视频 这 样子。
它 有 两个, 一个 是 je one, 一个 是 je two。 Je one 是 video to video, 就是你 输入 一段 视频, 它 可以 通过 那个 视频 在 上面 给你 做 一些 变形。 Text to video 就是 输入 一段话, 然后 他出 一个 视频 这样。
我 目前 用 的 比较 多 的 其实 更 多是 图片, 其实 是 image to video。 就是 我会 给他 一个 我 提前 修好 的, 或者 我 从 me journey 生成 好的 一个 图 上 传上去, 让 他 把 这个 静止 的 图像 动起来。 那 这个 时候 我 可能 就会 需要 它 精确 到 你 身体 的 这个 部分 把 它 动起来, 或者 是你的 背景 的 一些 部分 能够 动起来。
其实 上次 我们 准备 把 硅谷 101的博客 做成 视频, 你是 有 做 一张 背景图 的。 我 就 假设 你 生成 了 一个人, 他 正在 看书, 但是 你 extend 就 想 让 他的 手 去 翻书, 其实 他是 在 精准 控制 的 方向, 现在 不能 做 的 非常 的 好。
对 runway 现在 有一个 新的 功能, 就是 你可以 把 其中 的 一个 物体 的 部分 拍卖 出来, 然后 让 他 去 精确 的 动 那 一部分 的 画面。 但是 其实 具体 使用 起来, 它 其实 一致性 不是 很高。 当 你的 视频 变得 越来越 长 的 时候, 它 就 越来越 跑偏 了。
其实 这个 还是 对 我们 真实世界 的 模拟 的这 一部分 出了 问题。 它 会 让 这个 视频 看起来 不 像是 一个 真实世界 的, 就是 他 对 物理 世界 的 逻辑 理解 的 不是 很 清晰。
对, 是 这样的。
今天 sora 刚刚 出来 的 时候, 因为 现在 他 还没有 开放 给 公众 测试, 我是 看见 twitter 上 一共 是 放 出来 了 48个 sora 生成 的 视频, 最长 是 一分钟, 短 一点 的 也有 10秒, 就 不是 每一个 都是 有 60秒这么 长。 然后 有一个 视频 的 画面, 大概是 一个人 在 睡觉, 他 旁边 蹲 着 一只猫。 我们 仔细 看 那个 猫 的 时候, 那个 猫 它的 光影 都 生成 的 非常 好看。 它 真的 是一个 窗子 照过去, 早上 你 能 看到 那个 猫, 它 还有一个 倒影 在床上, 它的 动作 也很 连贯。 但是 就 有人 注意 到了 躺 在床上 的 那个人, 他的 手 的 位置 非常 奇怪。 正常 的 人手 你不知道 他的 手 在哪 哪儿。 比如说 他 被子 的 一个 脚 在 那儿 动, 但是 他的 人手 是在 另 一个地方 的。 大家 就会 觉得 可能 这个 就 跟 物理 世界 就能 感觉到 有一个 明显 的 不一样。 其实 如果说 当我们 真的 要把 这种 画面 用到 我们的 生成式 视频 里面, 好像 就 很难 了。
还有一个 对我来说 印象 挺 深刻 的 就是 这个 soa 它 其中 有一个 视频 是 一个女孩 走 在 东京 的 街头 的 那个 视频。 那个 是真的 让 我 觉得, 真的 直接 秒 了 之前 全部 的 智能 视频 的 A I 模型 了。 因为他 一边 走你 会 发现 他 背后 的 那些 广告牌 上面 的 信息 是 不怎么 变化 的, 这个 让 我 觉得 很 厉害。 很多 时候 其他 的 一些 视频 生成, 它 并 不能 让 一个 天空、 大自然 这样的 一些 场景, 它 都 未必 能够 保持 到 你 视频 第一 秒 跟 最后一秒 有一个 一致性 在 里面。 但是 我 发现 这次 的 solo 它是 全程 那个 广告牌 这么 细节 的 一些 画面 都 能够 保持 着 连贯性。 对我来说 这个 是 很 厉害 的。
针对 画面 上 我 补充 一下, 因为 其实 我们 硅谷 101做的 是 这种 前沿 科技 的 深度 内容, 我们 做 很多 的 explain, 就是 解释性 的 内容。 其实 我们 用 的 素材 分为 三个 部分。 第一个 就是 有 一些 纪录片, 有些 documentary 在历史上 真实 用 的 这些 画面。 其实 我们 就可以 直接 引用 这些 documentary, 然后 在 上面 说 这个 素材 来源 是 哪里, 这些 是 真正 的 素材。 我 觉得 这些 东西 可能 是 A I 不管 它 runway 或者 是 sora 做 的 再 好, 可能 以后 也 不会改变 的。
第二 就是 我们的 动画。 如果 大家 看 我们的 视频 的话, 就会 发现 中间 有 很多 的 比如说 骨架、 数字, 很多 的 bar cher 或者 是 这种 pitcher 这种 的 数据 图 在 里面。 这 一块 其实 现在 也是 A I 动画 没有 办法 做 的, 或者 是 非常 难以 做 的。
第三块 就是 可能 现在 是 有 一些 可以 改变 的, 就是 我们 用 的 一些 比较 general, 比较 通俗 的 一些 素材。 比如说 我们 在在 最近 的 一期 视频 当中, 我们 讲 钻石, 我们 可能 表现 这个 钻石 非常 闪亮 的 部分。 这些 图 其实 是 我们 平时 有 买 图库 的, 我们 有 买 大概 2到3个 图库。 然后 中间 有 很多 的 他们 已经 拍 好的 一些 video 一些 视频, 可以 给我 免费 的 使用 这些 图库。
我 觉得 是 现在 AI 生成 视频 将要 去 直接 竞争 的 商业模式。 但是 现在 对于 我们的 一个 产品 或者 挑战 就是说 如果 A I 它 生成 出来 的 这些 视频 有 各种各样 的 小 问题, 但是 我们 现在已经 买的 图库 其实 已经 可以 满足 我们 日常 的 剪辑 的 用途。 我们 其实 也 还会 持续的 用 图库, 暂时 也 不会 用 A I 身上 的 东西。 但是 如果 sora 真的 是 效果 非常 的 好, 而且 现在 有 60秒, 可以 让 我们 更加 的 customize, 更加 的 定制 化 的 去 生成 一些。 根据 我们的 视频 的 节奏, 根据 内容 更 match 更加 匹配 的 视频 内容 的话, 我想 以后 是 很 能够 代替 我们 对于 素材库 这方面 的 需求。
其实我 对 倩 姐 前面 提 的 第二点, 我 还有 个 小 好奇, 你说 第二点 是 做 一些 岔子, 可能 是 一些 数据 的 可视化。 那 你为什么 说 这一点 现在 A I 很难 去做?
目前 来说 其实 没有 从 剪辑 软件 里面 能够 去 把 一个 图表 精确 的 把 它 用 动画 形式 表现出来 的。 之前 我 觉得 这个 过程 由 A I 来完成, 我 觉得 是 不可能的事 情。 因为你 看到 现在 的 一些 视频 宣传, 他 连 个 完整 的 字 都 没办法 生成 出来, 无论是 平面 还是 视频。 那 这样的 情况下, 你 怎么 expect 它 以后 会 能够 精确 到 什么 程度 呢? 但 今天 看 了 这 波 骚 A 的 更新, 我 其实 也 在 想, 可能 说不定 还 真的 能够 出现 这样的 一种 状况。 就是 A I 已经 完全 能够 帮你 去做 一些 精确 的 信息 上面 的 处理。 但 目前 来说 的话, 还没有 出现 类似 产品。
你 今天 看 了 sora 的 更新, 你 觉得 他 能够 在 我们 动画 解释 的 那个 环节 帮 到 你 吗?
这个 具体 我不知道, 因为 现在 还没有 开放。 大家 不知道 它 整个 interface 是 怎样 的。 但是 如果 还是 通过 文字 去 生成 的话, 我 觉得 本身 文字 去 生成 这样的 一些 图像, 它 还是 有 它的 限制 的。 很多 时候 你 在 做 设计 的 过程 当中, 往往 不是你 能够 用 言语 去 把 它 描述 出来 的。
对我 能 get 到 jack up 的 意思 就是说 很多 时候 我们 想要 表现出来 的 东西, 比如说 我想要 这个 图 是 这样的, 我想要 动画 是 这样的。 就有 的 时候 因为我 跟 jack a 不是 他在 广州, 然后 我在 硅谷 这边。 有的 时候 我们 打电话 或者 zoom 的 时候, 我 都 觉得 非常 的 难以 用 语言 去 给他 形容 我想要 什么东西。 所以 有的 时候 我 能够 感觉到 他 其实我 表达 完了 之后, 他 还是 非常 的 疑惑, 非常 的 confused。 所以 很多 时候 我需要 真的 是用 手 给他 画 出来, 说 我 这个 东西 要 放在 这里, 然后 他 下一秒 移动 到 这里。 对, 要 非常 的 用 这种 图形 的 方式 跟 他 解释 清楚, 他 才能 get 到。
那 我们 怎么 去 跟 A I 做 这个 沟通 呢? 是不是 我 还是 要 用 一样的 这种 手法 给 A I 说 我 这 幅 图 要 长 这样, 但是 你 要把 它 变得 更加 漂亮 一点 或者 怎么样。 所以 我 觉得 跟 A I 沟通 其实 是一个 非常 难 的 东西, 包括 音乐 也 一样。 对我 今天 也 在 玩 谷歌, 之前 的 那个 音乐 生成 的 东西, 待会儿 我们 可以 详说。 但是 我 就 觉得 非常 的 难以 articular, 就是 很难 表达 我想要 它的 一个 感觉。
是的, 我 觉得 特别 有意思。 可能 正是 因为 人和 人 交流 的 时候, 可能 本来 我 如果 要是 表达 怎么样 做 一个 视频, 本来 就是 需要 画画 的, 本来 就是 需要 去 把 一个 视频 这 样子 的 可以 做出来 的。 所以 可能 对于 A I 来讲, 就是 分析 他 A I 是 怎么样 能够 生成 这些 内容 的? 可能 他 学习 的 是 人脑, 他 学习 的 是 怎么样 去 学习 各种 位置。 跟 A I 交流 的 方式 从 本质 上 来讲, 或许 应该 就 跟 人和 人 之间 交流 的 方式 是 差不多 的。
这个 问题 我们 其实 有 问 过 runway 的 创始人 跟 C E O Chris, 他 当时 到 硅谷 这边 来 参加 一个 活动, 我们 有 问 过 他说 你们 觉得 之后 怎么 去 跟 A I 更好 的 交流, 能够 创造 出来 视频 类 的 这样的 一个 表达。 他说 text 就是 言语 交流 的 方式, 不是 最好的 方 是因为 我们 人 创造 视频 的 时候 就 不是 用 语言 的 方式。 我们是 看到 了 一个 什么东西, 我们 说 我们 有 摄像机 把 它 给 capture 下来, 或者 我们 看到 了 这个 河 应该 这样 流。 所以 我们 觉得 说 他 动画 或者 也好, 3D怎么 也好, 应该 是 一样的 东西。 就是 我们的 逻辑 就 不是说 用 语言 去 描述 所有的 事情。
对我 非常 赞同。 但是 换 个 角度看, 结合 我 最近 在 用 多 模态 GPT, 还有 谷歌 新 出的 german line 这样的 交互 的 体验 来看 的话, 他 现在 是 可以 就 我 画 个 图 然后 让 他 去 理解 的, 他是 已经 能够 做到 这个 地步。 那 如果 进一步 的话, 到时候 把 text to view 这个 整合 进去 的话, 那 是不是 到 最终 它 就 不再 单单 只是 一个 text to video 这样的 一个 工具, 而是 更多 的 以 一个 agent 的 角色 去 帮你 实现 一些 任务? 我 最近 是 有 在 思考 这个 事情 的。 如果 能 更好 的 结合 多 模态 的话。
你 就是说 可以 同时 继 输入 文字, 让 它 去 生成 视频。 同时 我 还 可以 辅助 的, 比如说 我 把 图片 也 给他, 让 他 最终 去 delivery 一个 结果。
所以 我 觉得 感觉 随着 我们的 用户 不断 的 去 探索 的话, 可能 最终 这些 功能 在 可行 度 上 是 可以 做出来 的。 就是 看 它 每一个 单一 模块 的 能力 做 的 怎样。
前面 那个 问题 的 意思 是不是 就是说 A I 它 到底 是 视频剪辑 师 的 工具, 还是 说 他 自己 可以 作为 视频剪辑 师 本身? 大概是 这样的 一个 在 思考 这样的 一个 问题 是吗? 对 这个 问题 我也 觉得 特别 有意思。 这么 一 讲 起来 就让 我 想到 之前 是在 哪个 报道 上 看 的, 还是 怎么 就是说 为什么 这 一波 的 AI 大家 会 觉得 这么 的 impressive 并且 frightening。
At the same time 就是 之前 的 几次 工业革命, 科学技术 的 革命, 这个 技术 本身 还是 要 被 人 去 使用 的, 人 永远都是 把 它们 作为 工具 来 用。 但是 这一次 的 A I 甚至 有 从 工具 本身 蜕变 成 自己 就 知道 该 怎么 去 使用 这个 工具 这样的 这种 感觉。 就是 他 自己 可以 完全 独立 于 人, 脱离 人 去 完成 一些 事情。 但是 我在 好奇 的 是在 整个 视频剪辑 里面, 人的 作用 是什么? 有 哪些 东西 是 只有 人 知道, 但是 AI 是 没有 办法 自己 去 思考 到 的 一些 事情。 是不是 一些 宏观 的 这种 理念, 还是 说 需要 我们 人 去 灌输 给 A I 这样 来做。
我 觉得 分 视频 的 类型, 如果你 是一个 纯 的 讲述 历史 的 东西, 这些 东西 是 很好 被 还原 的。 但是 如果你 是一个 纯 科普 的 东西, 比如说 我在 解释 自然 钻石 是 怎么 生成 的, 人造 钻石 是 怎么 生成 的。 人造 钻石 它 有 两个 不同 的 方式, 一个 是 C V D, 一个 是 高温高压, 它 分别 是 怎么 生成 的? 这个 东西 我 觉得 如果 以后 视频 生成 非常 的 成熟 了 之后, 我 觉得 他 应该 很 好的 被 做出来。 但是 我 总 觉得 好的 作品 当中 是 有 很多 东西 应该 是 做 不 出来 的, 或者 是 需要 一些 创造力 在 里面 的。
大家 会 看 我们的 视频 的话, 会 发现 有些 时候 会 有些 梗, 然后 有 一些 时候 会有 一些 那种 贴纸 的 东西 表现出来 有一点 讽刺, 或者 是 有点 性格 的 东西。 其实我 觉得 那是 我们 视频 里面 最 有意思 的 东西。 我相信 也是 jack up 在 工作 的 时候, 他 觉得 最 有意思 的 一个 部分。
比如说 我 印象 非常 的 深刻, 我们 讲 英伟 达 的 时候, 老黄 他 不是 有 一幕 是 举 着 那个 英伟 达。 然后 当时 jack 就 把 那 荧幕 跟 在 狮子王 里面, 然后 辛巴 被 举 起来 的那 一幕 剪辑 在 了 一起。 然后 当时 那个 背景音乐 也是 狮子王 的 那个 音乐。 然后 当时 我看 第一 刚 出稿 的 时候, 姐 就 觉得 说 oh my god, this is so brilliant, 就笑 喷 了。 对我 觉得 那 一段 是 非常 好。 然后 他是 首先 人 理解 的 内容, 然后 他 懂 那个 梗, 然后 他 觉得 情绪 到了 那里。
然后 我 有 这样的 一个 idea 一个 点子 出来, 我 通过 我的 这个 尝试 把 它 给 放在 那, 就是 有一个 非常 好的 点位, 一个 moment 在 那个地方。 但 我不 觉得 AI 可以 有 这样的 一个 创造力。 现在 来说 的话, 艺术创作 也好, 还是 我们 做 内容 也好, 做 视频 也好, 这些 永远 最 juicy 的 地方, 最 有创造力 的 地方, 最 值得 我们 去 尝试 新的 东西, 新的 思考 的 地方。 我 觉得 永远都是 我们 最 自豪、 最 骄傲, 也是 我们 最 喜欢 去做 的 东西。
对, 还有我 觉得 你 那个 问题 也可以 把 它 分为, 我们是 想要 更加 科幻 的, 天马行空 的 生成。 我 经常 会 觉得, 比如说 我 让 它 生成 一个 博客 封面, 它的 构图 会 比 我 想象 中要 好 很多 倍。 但是 你 要是 看 细节 的话, 它的 什么 字儿、 图案, 可能 都是 会 多多少少 有一点 问题 的。 所以 它 不是 非常 的 可控性 的 生成。
最难 的 就 可能 是 我们 刚刚 前面 提到 了 对 现实 世界 的 精准 还原。 就 比如说 jack up 说到 在 你 前面 生成 一个 东西, 你 后面 他的 衣服 上风 吹 过去, 他 还是 有 褶皱 的 时候, 他 这个 动作 能不能 是 连续 的、 持续的。 当 一个 天鹅 在 湖上, 如果 他 有 影子 的话, 你 能 理解 湖 是一个 面, 镜子 是一个 镜面, 玻璃 能不能 反光? 墙 能不能 反光? 就是我 觉得 这些 可能 都是 涉及到 整个 AI 对 物理 世界 的 理解。
我 觉得 还 挺 难 的。 我自己 在 看 视频 的 时候 会 觉得 好的 视频 跟 一般 的 视频 差距 真的 非常 的 大。 一般 的 视频 可能 不难 做, 而且 随着 生成式 视频 以及 生成式 文案 的 越来越好, 我 觉得 我们的 市面上 马上会 涌现出 一大批 用 A I 生成 的 视频 的 内容 出来。 但是 我 目前 没有 看到 一个 精心 被 设计 的 或者 是 构思 的 非常 好的 顶级 的 视频 能够 被 A I 打败。 因为 好的 视频 里面, 它 不管 是 段子 还是 思考, 还是 文案 都是 顶级 的。 现在 A I 我 觉得 出来 的 都是 最 多是 average, 最 多是 平均 的 东西, 就是 顶级 的 作品 是 不会 被 打败 的。
确实 我 觉得 前 几个 红军 说 的 都很 有意思, 而且 怎么说呢? 在 这个 各种 A I 工具 满天飞 的 时代, 我 感觉 这个 回答 让 我 又 觉得 或者说 找 为了, 或者说 提炼 出来 了, 人们 做 这么 多 事情 到底 是 为什么? 就是 这些 精彩 的 地方, 很多 东西 确实 是 只有 人才 能 创造 的。 我 再去 思考 为什么? 如果 要 从 machine learning 的 最 基本 的 道理 去 讲 的话, 这些 生成 的 视频 都是 由 数据 去来 的。 但是 好的 一个 视频 就像 倩 姐 讲 的, 可能 它 里面 每一个 东西 都 是人 已经 帮 她 精心 筛选 过 的那 A I 生成 的 这个 模型, 除非 他的 训练 集 也是 一个 公司 精心 筛选 的, 否则 他 如果 从 网上 大量 的 爬虫 抓取 下来 的 信息, 总归 会有 一些 良莠不齐 或者说 质量 参差不齐 的 一些 东西。 所以 我在 猜想 这 可能 是 为什么 倩 姐 前面 讲 的 这个 现象 的 原因。
其实 本来 这一 趴 我没有 打算 在 我们 讲 视频 的 这个 环节 讲。 有一个 非常 有意思 的 现象, 就是 之前 不是 有 很多人 说 我 能 不能用 chat B T 写 小说, 或者 做 编剧, 或者 做 编剧 创业。 但是 就 有人 就试 了, 其实 是 之前 那个 牛油果 烤面包 的 主播, 我们 两个 前几天 在 聊, 他 就说 ChatGPT 写 的 东西 非常 的 落入俗套, 因为他 想要的 所有的 东西 都是 概率 最大化, 这 可能 跟 他的 算法 是 有关系 的。
就 比如说 你说 如何 把 老师 小朋友 跟 外星人 结合起来, 那 他 就会 编写 一个故事 怎么样 外星人入侵, 老师 带领 着 小朋友 最后 打败 了 外星人, 取得了 胜利。 对 这 对 这 这 是一个 大家 非常 意想 中的 故事。 但是 比如说 你 去 看 刘慈欣 的 乡村教师, 你 就会 发现 他 怎么 把 外星人 跟 一个 老师 跟 小朋友 结合起来, 那个 构思 就 太妙了。 我也 在 想, 这 可能 是 ChatGPT 很难 去 出 非常 顶级 的 文字 作品。 所以 后来 有人说 编剧 怎么 工作, 那 就是 跟 ChatGPT 反 着 写, 他 往 这个 方向 写, 我 就 往 那个 方向 写。 但 其实我 是 听到 他的 这样的 一个故事 模板, 他 就是 很难 给 大家 灵感 的, 因为他 一切 都 落入 了 那个 最大 概率 中。 但是 好的 作品 是要 情理之中, 但 一定要 在 你的 意料之外, 按照 意料之外 的 这个 线 去 发展 的 对讲。
到 这个 我 觉得 天马行空 的 想一想, 因为我 自己是 机器人 出身, 其实我 对于 比如说 A I 的 准确性, A I 它 不能 去 胡思乱想。 这个 在 我 平时 的 工作 之中 是 有 很多 的 要求 的。 但是 这么 回过头来 一 想, A I 如果 再 乱想 的话, 甚至 可能 这 正是 她 所谓 的 创造性 的 来源。
当然 我 对 A I 是不是 会 很 lust, 我没有 专业 的 研究, 但是 因为我 也 在 思考, 红军 前面 讲 的 现在 很多 generate A I 本质 是一个 预测性 模型。 他 只有 看到 之前 的 东西 跟 他的 training set, 然后 他 才能 预测 下一个 是什么。 但 他 不会 自己 像 人 一样 有 创造性 东西 的 能力。 所以 我 很 好奇 在 比如说 接下来 的 几十年, 科学家 能不能够 发现, 就是 人们 为什么 有 创造 新 东西 的 能力? 生物学 上 的 这种 机理 是什么? 如果 万一 哪一天 真的 发现 了 这样的 机理, 就像 A I 是 神经网络 一样, 说不定 特别的 会有。
就 A G I 到了 吗?
我们 还没 结束, 又 已经 哲学问题 了。
下一代 会 真正 去 思考 的 这种 A I 但 这 可能 扯 得 有点 远 了。
对, 到时候 我们 全都 失业 了。
但 我 觉得 至少 现在 来讲 的话, 确实 人的 创造性 还是 非常 强 的那。
我 稍稍 再 把 话题 拉回来 一点, j up 你 要不要 跟 大家 分享 一下, 现在 你 在 用 哪些 的 后期 软件, 你 觉得 它 加入 了 A I 的 功能?
好, 我 现在 目前 的 工作内容 除了 视频 后期 之外, 其实 还 包括 一些 平面 的 设计。 我们 回到 me journey, 虽然 是 提供了 我们 更多 素材 选择, 但 其实 还是 有 一些 限制 的。 实际上 它 并没有 很 好的 提高 你的 效率 了。 因为你 现在 需要 一个 图, 你 还是 得 写 一个 提示 词 让 它 去 生成。 但 这个 过程 可能 你 还得 想 一下, 这个 提示 词 我要 怎么 写 才能够 有一个 更好 的 结果。 我们 现在 可以 通过 GPT 的 辅助 帮你 写 这个 提示 词。 可能 说 你 只是 简单 的 描述 一下 你 大概 需要 一个 什么东西。 然后 GPT 就可以 通过 my journey 提示 词 的 一个 特性, 去 帮你 生成 一个 专门 给 每 journey 去 用 的 一个 提示 词, 而且 是 尽可能 具体 的, 可能 出来 最终 结果 是 一大 段 的 文字。 然后 让 没准 你 去 生成 这个 可以 提高 你 需要 的 最终 生成 的 那个 效果。
但是 这个 过程 当中 也会 耗费 你 很多 时间。 可能 有些 时候 我在 做 设计 的 时候, 可能 这 张 图 我需要 很快 的 把 它 生成 出来, 是我 直接去 素材库 把 它 找 出来。 这个 过程 可能 花了 五分钟、 十分钟。 但 现在 你 要 我 耗 半个 小时 到 1个小时 去 专门 做 一个 图, 其实 很多 时候 我是 不愿意 去 这么 做 的, 我 宁愿 去 买 这个 素材, 更 省 一个 时间 的 成本。
所以 现在 A I 还没有 颠覆 素材库, 还没有, 但是 快了 可能 对。
但是 我 有 发现 现在 反倒 是 很多 素材库 在 整 和 A I 就是 之前 比如说 我需要 一个 单一 的 素材, 比如说 我需要 一个 杯子 的 图, 它是 一个 P N G 图, 就是 后面 是 没有 背景 透明 的 这样 一个 图, 我是 大量 用到 的。 我 就 发现 现在 素材库 就 很多 是 杯子, 它 可能 是 生成 的, 只是 它 多了 一步, 就是 把 它 抠出来 这个 过程, 所以 现在 的 素材库 也就 变得 很多 选择 了。 然后 还有 一点 就是我 自己 在 做 的 时候, 就是现在 的 一些 adobe 的 软件。 比如说 像 P S follow shop, 它是 已经 整合 了。 比如说 像 A I 智能 填充 这样的 一个 功能, 那 这个 用 起来 就 很好 用了。 比如 之前 可能 我 一个 背景, 它 可能 是一个 横向 排版 的 一个 图, 那 现在 我需要 把 它 变成 一个 竖向 的 图。 那 这样的话 原来的 那 张 素材 可能 就 不能用 了。 那 现在 的话 其实 可以 通过 像 generate view 这样的 一些 功能, 就可以 把 一张 本来 横向 的 图 填充 成 一张 数值 的 图。 这个 实际操作 起来 就 很 方便, 你 不用 因此 去 花 大量 的 时间 去 找 另一个 图 来 代替 它, 而是 可以在 原有 的 图 上面 更多 的 customization。
这点 我 举 个 例子, 它 这个 类似的 像 A I 扩 图, 就是 因为我 记得 去年 的 时候, 我们 桂 101在成都, 然后 跟 世界 科幻 大会 有 一场 合作 的 线下 论坛。 当时 现场 的 那个 屏幕 特别 长, 一般 我们 其实 出的 图 都是 16比9的, 或者 是 4比3的那 其实 我们 之前 出的 那些 图, P P T, 其实 是 放 不到 那个 上面 的。 那么 我们 可能 就要 左边 放 一个 白 的, 右边 放 一个 白 的, 中间 再 放 一个 深色 的 就 很 难看。 当时 杰克 不就 做了 一个 A I 扩 图 的 这样的 一个 效果图, 就是 把 非常 长, 杰克 不 那个 是 多少 尺寸 来 的, 你还记得吗? 我记得 非常 长, 但是 整个 出来 效果 就 非常 好, 非常 的 统一, 而且 是 那么 大 的 屏幕, 对 吧? 非常 大 的 屏幕。
对, A I 扩 图 一方面 是 他 帮你 扩展 了, 第二 方面 是 现在 有 很多 工具 是 可以 让 你 把 比如说 原来 像素 不是 那么 高 的 一个 图像, 让 它 变得 扩大 好几倍。
美图秀秀 就有。 我 这个 春节 整个 就在 玩 美图秀秀, 玩 上瘾 了, 是因为 就 我们 另 一位 成员 杰瑞米, 他是 自己 在家 搞 了 一个 影棚, 然后 就 给 大家拍 新年 照片。 我 当时 的那 张 图 其实 也是 我 女儿 的 一个 图, 然后 我想 把 它 变成 一个 横版。 但是 它 其实 拍 那个 照片 的 时候, 他 那个 A I 扩 图 还 不仅仅 只是 说 它 扩 那个 红色的 背景, 因为 那个 其实 相对 比较简单。 当时 他 拍 到 我 女儿 那个 芭蕾舞裙, 它是 有 一点点 的 小 角落 没有 拍 进去 的。 但是 A I 扩 图 的 时候, 她 把 那 一块 的 裙子 给 补 上了, 我 就 觉得 效果 还 蛮 好的。
我 用 的 比较 多 P 图 软件, 就是 P S 感觉 上 就 像是 你 之前 是在 用 铅笔 在 作画, 但 现在 你的 这支笔 变成 了 一支 神笔, 就是 它 有 超能力 的 一支笔。 然后 他 就可以 比如说 一些 局部 的 细节, 你 需要 把 这个人 拿着 的 这个 手机 或者 这个 杯子, 把 它 换成 一些 别的 东西。 那 现在 就 可能 几秒钟 的 时间, 你 已经 能够 达到 能够 精细 的 去 把 那个 物体 把 它 换掉。 这个 对 很多 做 律师 来说 是 能够 大大提高 你的 效率 的。
当然 我 现在 分享 的 只是 photoshop 里面 的 一些 应用。 像 有 一些 插画师 的话, 他们 在 用 那个 illustrator, 就是 另一个 adobe 的 软件 做 插图 的。 他 现在 是 可以 一键 把 整个 配色 都 换掉。 他 做图 的 时候, 比如说 我 现在 是 这个 配色, 那 现在 我 可能 就 多了 很多 其他 配色 的 选择。 这个 过程 就 不需要 你 一点一点 的 去 把 它 那个 色 换掉, 而是 能够 一键 把 这个 色 直接 就 把 它 换掉 了。 感受 起来 还是 有 很大 的 一个 效率 上面 的 改进 的。
我 现在 比较 期待 的 就是 像 photoshop 这样的 一些 生成 效果, 它 可以 达到 me journey 这样的 一个 水准。 因为 现在 你 通过 general, 可能 你 还 没办法 做到 一步到位, 因为 生 出来 的 那个 效果 往往 不是 那么 理想。 但 如果 能够 有 me journey 这样的 一个 水准 的话, 那 可能 使用 起来 就会 更加 的 方便 了。
应该 很快 了, 就是 把 这些 工具 都 整合 进去。
杰克 不 你 要 不要说 一下 在 音乐 方面、 音频 方面, 我们在 后期 做 的 一些 应用 A I 的 软件。
音乐 方面 其实我 现在 在 这部分 用 的 还 比较 少了。 但是 我们 之前 是用 过 eleven labs 去 把 一些 比如说 倩 姐 平时 的 旁白 可能 录 少了 一两句话。 我是 试 过用 eleven labs 去 把 那 句 文案 去 用 见解 的 声音 把 它 还原 出来 的。
但 我 发现 有的 时候 他是 补 的 还 可以, 但 有的 时候 就是 怪怪的。 因为我 不知道 他 是因为 中文, 他 现在 还 听 的 不太好 还是 不行。 对, 因为我 爆 个 料, 就是 我们 最新 的 钻石 的那 一个 片子, 最 开始 的 时候 就是 那个 C 杠 C 键, 我 读成 了 C C 键, 是一个 文科生 的 错误。 然后 后来 我们 有一个 后期 的 小朋友 说, 倩 姐 这个 应该 叫 碳 键。 对, 然后 我 当时 就 跟 jack 说, 你 能 不能用 eleven lips 就 直接 帮 我 补 了, 我 就 不用 重录 了。 但是 要不 后来 给 我的 那个 版本, 他的 那个 音调 就是 有点 怪怪的, 他 就 变成 了 什么 弹弹 键。 我说 你 这个 还 不如 我说 C C 键。 对, 后来 还是 我自己 重新 补 了 一下。
对, 其实 它是 叫 eleven labs 的 声音 克隆 功能, 我们在 播客 里面 也 用 的 蛮 多 的。 比如说 我们 跟 嘉宾 录制 的 时候, 嘉宾 他 可能 有 一些 口误, 但是 他 自己 没有 意识到。 或者说 有 一些 数字。 因为 我们在 录制 的 时候 都是 现场 即兴 发挥, 他 就 说错 了, 所以 就 后期 要 补 录像。 这种 情况 的话, 通常 情况下 他 会 后期 我 觉得 哪句 话 说错 了, 我会 跟 他说, 你 用 手机 在 后期 录 一个 给我。 但是 因为 他的 录制 环境 跟 第一次 的 录制 环境 不一样, 所以 他 手机 的 白噪音 跟 生产 环境 是 不一样的。 就 你 能 明显 听到, 比如说 上 一个 是 这个 音调 跟 这个 声场 说 的, 下面 一个 整个 环境 就 变了, 它 这种 进入 跟 进出 的 这种 感觉 会 非常 的 明显。
后来 有 一次 我在 录 的 时候, 就 嘉宾 补录 了 一个 给我, 我 把 点进去 了。 同时 我 把 它的 声音 放在 eleven labs 声音 克隆 里面, 大概 就是 选 十几秒 的 样子, 让 eleven labs 克隆 一段 他的 声音, 然后 再 把 这个 声音 放到 我们的 音频 里面。 其实 证明 是 比 真人 补录 要 更好 的, 因为 它的 生产 还原 的 环境 是 更加 一致 的。
但 他 有一个 非常 大 的 问题, 其实 就是你 刚刚 说 的, 现在 他 对 中文 的 优化 并没有 很好。 我 发现 你 只能 做 一个 非常 短 的 补录。 比如说 你说 巴拉巴, 这 是一个 重要 的 事情。 当 他 念完 一段 大概 有 30个字 的 时候, 他的 音调 绝对 你 能 听 出来 这 是一个 外国人 的 音调。
因为他 会 把 比如说 像 重要 的 事情, 他 会说 成 重要 的 事情。 对你 一听 就是 觉得 就是 一个 外国人 在 说 中文 的 感觉。 但是 它 能 还原 那个 人的 音色 跟 声场, 他 很难 去 还原 这个 中文 的 语调。 后来 我也 找到了 一些 让 他 尽可能 还原 的 像 普通话 的 方法, 就是 给 他的 字 越少 越好。 因为 大家 通常 在 生成式 A I 的 时候, 比如说 我 第一遍 生成 不好, 我 就 再 让 它 生成 一遍, 我 就 不停 的 重试。 我 就 发现 这个 eleven labs 你 越 让 他 重试, 他的 语调 偏离 的 越 厉害, 就 会有 这样 不管 是什么 地儿? 对对对, 然后 其实 如果你 把 字 稍微 控制 的 少一点, 只要 他说 最短 的话 就是 几个字 的话。 他 通常 在 第一次 你 找准 demo, 或者 如果你 觉得 他 还原 的 不好, 你 就 换 demo 的 音频, 它是 最后 是 可以 还原 的 比较 好的。
但是 我 发现 就是现在 虽然 他说 的 非常 像 外国人 说 中文, 但是 他 有一个 特别 好的 应用 场景, 就是 在 我们的 视频 里面, 我们 当时 带 糖 的 那个 片子。 然后 有 两个 地方 其实 是 很长 的 一段。
对 其中 一个 角色 要说 怎么说。
就是 角色 他 当时 引用 的 一 很长 的 一段 quote, 他 当时 的 一个 采访 原话。 当时 我们 就说 要不然 就是我 念 出来 就是 挺 无聊的, 就是 没有 什么 惊喜。 然后 当时 我们 后期 处理 一个 方式, 那 就是 j up 用 eleven lips, 用 当事人 的 声音 去 train 了 整个 历史 的 人物, 他们 自己 来 复述 这段话。 但是 说的是 中文 了, 可能 就是 更好 的 理解 一点。 但是 用 的 是 他们 自己的 历史上 原型 的 人物 的 那种 声音 声调 来说, 一个 外国人 说 中文 还 挺 有意思 的。
对我 当时 看到 戴 堂 那 期 稿件 讲 那 几个 科学家的故事, 然后 还原 他们的 声音 的 时候, 我 觉得 还 蛮 有趣 的对。
其中 一段 就是 罗斯福 总统, 他 可能 讲 了 一段话, 然后 我 就 去 油管 上面 找 了 一段 他 很久 之前 的 一段 录像, 然后 我 就 把 那段 的 声音 就 拿 进去 劝 eleven labs, 然后 就 出来 了 这个 克隆 声音。 我 觉得 从 声音 的 还原 度 上面 是 做 的 很棒 的。 但是 就是 在 中文 上面 它 会有 一些 语调 的 一些 不一样, 但是 我 觉得 反而 出来 那个 效果 就 很 像 一个 外国人 在 讲 中文, 挺 有 意外 的。 然后 就 直接 用 了也 不用 想 那么 多了。
对我 觉得 在 那个 情节 当中, 大家 是 能够 容忍 你 这个 中文 说 的 有点 奇奇怪怪 的, 因为 大家 知道 是一个 外国人 在 说 中文。
对, 但是 讲到 中文 还原 了, 我 今天 又 发现 了 一个 神器, 我 发现 它 能够 更好 的 还原 中文 文字 的 生成, 这个 神器 叫做 open voice, 你们 其实 可以 去 用 一下, 或者说 现在 要不要 现场 演示 一下 这个 东西。
可以。
视频 其中 一期 里面 选的是 吗?
对我 今天 截 了 一段 前 近期 视频 的 一个 十秒钟 左右 的 一段 sample。
这个 是 my shell 做 的 就是 open voice。 他的 创始人 刚 上了 我们 外部 3101 的 节目。
好, 现在 这个 是 倩 姐 sample 的 声音。
在 2月14 号 情人节 购物 销售额 在 美国 能够 超过 250亿美元。 而在 情人节 礼物 当中, 超过 5分之1 的 人 选择 了 首饰 OK。
我们 现在 就 用 这 段 声音 去 生成 这 段 字。
jackup 给 我们 打的 字 是 红军, 今天天气不错, 我们 去 吃 个 饭。 我们 来 看看 倩 姐 的 生成 是 A I 声音。 对, A I 倩 姐 的 声音。
好, 准备 好。
红军, 今天天气不错, 我们 去 吃 个 饭。
我 觉得 这个 确实 比 eleven labs 做 的 要 他的 音调 是 准的。 但 后面 那句话 我 能 感觉到, 不是 你说的。
我会 说, 亲爱的, 今天 天气真好, 我们 赶紧 出去 吃 个 饭。
我 觉得 一部分 应该 是 我们 给 的 sample 太少 了, 所以 他 不能 完全 capture 到 倩 姐 平时 讲话 的 整个 的 感觉。 但是 我 觉得 从 音调 来说, 它是 接近 我们 国人 的 发音 的对 对。
它的 音调 它 比 那个 弹弹 键 要 好多。
那 这个 公司 是一个 什么 来头? 红军 前面 也 提 了 一下, 它 叫 open voice。 它是 个 open source 的 项目 吗?
还是 说 它是 一个 开源项目, 然后 是 M I T 跟 牛津 的 一群 人 来做 的对。
其实我 觉得 现在 好像 声音 生成 其实 不是 一个 特别 难 的 技术 了。 我看见 好多 国内 其实 有些 视频 其实 都是 A I 生成 的 语音。 包括 我 觉得 有的 时候 大家 会 分不清楚 什么时候 是 A I 生成 的, 什么时候 真的 是 有 主持人 在 的。
前段时间 我们 有 个 视频, 中间 有 一段 voice over。 因为 当时 的 场地 的 原因, 还有 时间 的 原因, 我不是 在 现场 直接 录 的。 我 可能 就是 拿 这个 稿子 用 手机 来 录音 的。 可能 因为我 之前 是 电视 主持人, 所以 我 一旦 进入 这种 拿着 稿子 手机 录音 的 那个 阶段, 我 就会 读 的 非常 的 字正腔圆。 然后 读 的 非常 像 电视台 的 这种 机构 化 的 这种 感觉。
当时 视频 下面 好多 的 观众 就说, 你们 这个 是不是 用 A I 生成 的? 你们 这个 voice 玩 录音, 你们 现在已经 开始 A I 已经 用 起来 了。 你们 团队 知识, 你的 真实的 团队 好 先进。 我 当时 就 觉得 说, 我 到底 要不要 clarify 澄清 一下, 这是我 自己的 声音。 结果 你 真的 用 A I 配音 的, 大家 都 没有 听 出来。 对, 所以 我 觉得 这个 界限 好像 越来越 难以 区分 了。 所以 我是 觉得 有些 时候, 比如说 我们 稿子 里面 有 一些 有 情绪 的, 或者 是 有的 时候 有一点 小 段子、 有 梗, 然后 稍微 的 调皮 一下, 这种 地方 的 处理 有 特性 的、 有 特色 的, 可能 A I 还是 很难 去 表现出来。 但是 非常 的 标准 的 电视台 化 的 这种 东西, 这种 配音, 我 觉得 现在 其实 做 的 已经 非常 好了。
对我 觉得 刚刚 j up 给 我们 分享 了 声音 克隆, 因为我 知道 其实 硅谷 101的很多 配乐 都是你 自己 来 配 的。 你 要不要 跟 大家 分享 一下 A I 作曲?
我 先 稍微 说 一下 我的感受, 然后 jack 来 补充。 目前 其实 我们 很多 的 作曲 还是 用 素材库, 有 素材库 里面 其实 有 非常 多 可以 去 选择 的 乐曲, 而且 我 觉得 挺好 选 的。 就是 一般 你 输入 一些 关键词, 比如说 我们 表现 一个 商业 故事 非常 的 紧张, 他 要 破产 了 对 吧? 我们 比如说 打 一些 intense, 或者 是 bankrupcy, 或者 是 比较 negative 消极 的 词 进去。 然后 它 大概 的 你听 十首 音乐 的 感觉, 就是你 大概 听 前面 的 5到10秒, 你 就 知道 这个 音乐 是不是 much, 是不是 能够 配合 你 当时 的 那个 文字。 所以 一般 2到3分钟 之间, 我 就 能够 找到 1到2首 还 可以 用 的 一个 配乐。 所以 我 觉得 这样 的的 一个 方式 对我来说 效率 已经 是 挺 高 的 了。
你说 素材库 的 效率, 已经 素材库 的 相同 素材 挺 高 的 了。 而且 因为 它 非常 多 的 资源, 所以 你 选择 起来 还是 挺好用 的。 就是我 其实 有 试 过 之前 大家 觉得 还 蛮 火 的 一个 软件, 叫做 music F X, 它是 谷歌 出的。 今天 现场 可以 给 大家 演示 一段 哈那 比如说 我们在 前段时间 讲 拉斯维加斯 sphere 那个 网 红 大 圆球 的 那个 片子。 如果 大家 有 看 那个 片子 的话, 你 会 发现 其实 我们 讲 的 是一个 纽约 富二代, 非常 的 像 继承 之 战, secession 里面 的 那种感觉。 因为 它 也是 一个 含 着 金汤匙 出来 的, 也没有 特别的 有 天赋。 在 经商 上面 到 30多岁 的 时候 还 吸毒, 脾气 也 特别的 不好。
然后 我 当时 就 跟 说, 我们 是不是 可以 去 尝试 一点 纽约 90年代 那种 纸醉金迷 一点 的, 上层社会 一点 的, 有点 luxury 的 这种 感觉。 对, 有点 jas 在 里面 的 这种 感觉。 其实 素材库 里面 已经 能够 有一点 像 机 神之战 的 片头曲 的 那种感觉 了。
然后 我 其实 也 用 music F X 试 了 一下, 可以 先 给 大家 听 一下。 我的 提示 词 其实很简单, 就是 produce a documentary background music to demonstrate manhattans in nineties。 翻译 过来 就是说 给我 创作 一首 纪录片 的 背景音乐, 来 展现 90年代 的 曼哈顿。 我可以 可能 加 更多 的 一些 东西 在 里面。 比如说 funny 一点, jax 一点 的 东西, 但是 我没有 加。 然后 我 觉得 其实 效果 还 可以, 先 给 大家 听 一下。
好听 是不是 有点 这个 感觉?
就 有点 繁花。
就 有点 繁花, 然后 有一点 继承 之 战, 然后 它 有 古典 背景, 有 钢琴, 感觉 是 这么 一个 感觉 了。 然后 他 大概 会有 30秒, 你 用了 吗? 没用, 因为我 觉得 我们的 素材库 里面 的 那个 音乐 我 更 喜欢 一点。 在 music F X 里面, 然后 你 输入 这个 提示 词, 它 会给 你 有 几版。 比如说 刚才 是 一 版, 然后 它 可能 有 稍微 的 变形。
对, 然后 还有 最后 我们 那个 纽约 富二代 这个 sphere 网 红球, 我们 用 的 是 这个 音乐, 稍微 给 大家 听 一下。
对, 用 的 这个 音乐 非常 好, 我 觉得 比 刚刚 生成 的那。
几个 都 要好。 对, 所以 我 觉得 生成 的 它是 有一点 有 这个 意思, 但是 又 差点 味道。 对对对, 差点 味道。 因为我 觉得 但 还是 有点 太 general, 因为 素材库 里面 它 有 成百上千 的 intense funny luxury, 就是 各种各样 关键词 的 这种 主题 的 音乐。 我 一般 晚上 11点钟, 就是 在 我 办公室 里面 没事儿 就 放着 听。 你 真的 是 听到 了 非常 对味 的 那个 音乐, 你 会 一下 就 觉得 说 就是 他 了 这种 感觉。 其实 是你 要 听到 了 它, 你 才会 觉得 说 这是 你想要的。 对我 觉得 跟 一个 你 主动 去 输出, 然后 用 一些 比较 general 的 一些 prompt 的 词 去 生成 一个 A I 音乐, 我 觉得 这 两者之间 可能 还是 是 有点 差距 的。
所以 音乐 制作人 现在 听到 这个 还 不用 慌, 还没 能 替代。
有一点 慌, 但是 还 不用 太 慌。 对。
但 说 回来, 其实 这样的 工具 有一个 优势, 就是 很多 时候 你 找到 一首 曲子, 其实 比较 大 的 问题 就是你 要 用 它 的话 得 有 版权。 这种 情况下, 我 现在 不知道 A I 的 这个 版权 是 怎么 算 的。 但是 如果说 它 生成 的 一些 音乐 都是 我们 可以 用 的话, 那 其实 这个 也 算是 是 提升 了 我们 不少 的 效率。 你 不用 去 花钱 去 买 这首歌 的 版权, 但是 你 又能 得到 一条 比较 类似的。
但 我 觉得 我们 要 花钱 去 买 A I 软件, 如果 比较 A I 软件 跟 现在 版权 库 的 价格, 我 觉得 可能 版权 库 对 也 差不多。 但是 版权 库 的 效率 更高。 对, 目前 是 效率 更高 的对 对我。
觉得 一个 功能 可以 更好 的。 它 能否 像 生成 图像 的 me journey 那些 那样, 我可以 给他 一个 reference。 因为 很多 时候 你 其实 很难 描述 一首歌 的 感觉 也好, 还有 他的 一些 风格, 可能 对 一些 对 音乐 制作 比较 陌生 的, 像 我 这样的 制作者 来说, 其实我 是 很难 去 描述 一首歌 是什么 品类 的, 然后 它的 B P M 是 多少, 它的 节奏 是 怎样 的。 如果说 我 能 给他 一个 reference, 那 是不是 我在 做出 我 想要的 那个 音乐会 简单 很多 呢? 这个 是我 比较 想 期待 看到 的对。
这个 reference 我 感觉 是 必须 的, 就 比如说 刚刚 像 欠 你 加入 的 一些 关键词, 就 比如说 funk 还有什么 这次 的 感觉, 然后 还有 90年代 的 曼哈顿。 我 其实 是 觉得 如果 大家 是 专业 处理 视频, 或者 像 我们 处理 播客 跟 音频 的, 大家 在 版权 库 里面 可能 对 这些 词 都 非常 的 熟悉。 就是 他 到底 是要 一个 什么样 的 情绪, 它是 哪种 音乐风格 更 细 一点。 像 我们的 音频 后期 他 还会 分 什么 快 版、 中 版、 慢 版 这 一类 的。 他 其实 是 本来 大家 已经 是 知道 很多 的 这个 音乐 标签 的。
我 好奇 这样的 工具 以后 如果 给 更多 的 普罗大众 去 使用, 会不会有 某种 功能, 就是说 我们 可以 哼 一些 调子, 就 比如说 如果 是 suspend 就是 大大 大大 这 样子。 我不知道 这样 是不是 可以 做 一个 reference, 因为我 想到 比如说 谷歌 它 有 这个 听歌 识曲 这样的 一些 功能。 对, 就是 这 前面 顺着 你的 思路 往 下 想, 就是 这个 reference。 因为 如果我们 已经 有了 一个 很棒 的 一个 sample, 我们 可能 就 当然了 也有 可能 是要 去做 一些 variation 这 样子。 但是 可能 如果 已经 听到 了 一个 很 完美的, 我们 可能 也 不一定 需要 再去 生成 了。 但 很多 时候 是不是 就是 心里 有 某种 想法, 但是 很难 用 言语 表达出来。 但是 如果 能 哼 出来 A I 能够。
给你 在 每个 人都 能 音乐创作, 听起来 挺 美好的。
对我 觉得 那个 很好。 而且 还有 一种 可能 就是 因为 其实 现在 我们 很多 的 画面 也好, 还是 文案 也好, 其实 是要 跟着 音乐 去 剪 画面 的那 比如说 它的 一个 beat 是 怎么样 的, 然后 是 长是 短, 是 四排 是 三排, 我们是 要 通过 那个 画面 去 跟着 那个 节拍 去 剪 的。 但 有可能 有的 时候 画面 不太 适合, 或者 这个 画面 就 没 那么 长, 或者 是 他的 稿子 或者 我 念 的 V O voice over, 他 就 好像 不 那么 配。 但是 如果 以后 能够 反过来 的话, 我们 用 音乐 来 适配 我们的 稿子, 适配 我们的 画面, 配 着 我们的 画面 来做 一个 适合 他的 音乐, 我 觉得 这个 可能 会 更好 一些。 比如说 有的 时候 我们会 为了 音乐 去 延长 我们的 开头, 就 看 有的 时候 跟 我说, 倩 姐 这个 音乐 真的 非常 好听。 因为 比如说 大家 如果 看 我们 视频 的话, 会 发现 我们 可能 在 一分钟 左右 会有 一个 片头 的 文字特效 出来。 然后 经常 就是说 音乐 的 最后 3秒钟, 经常 就是 一个 落尾 的 很强 的 收尾 的 这种 音乐。 那 我们 就会 用 3到5 秒钟 的 时间, 就 把 我们的 这个 片头 特效 的 图片, 配合 着 那个 音乐 给 有 很 强烈 那种 情感 的 给 它 贴上去, 然后 就是 一个 很强 的 这样的 一个 开头。
我 再 把 这个 话题 拉 回到 素材库, 就是我 觉得 很多 素材库 它的 功能 已经 非常 强大 了。 就 比如说 同一个 曲子 你可以 跟 他 选, 你是 要 三秒、 6秒、 9秒还是 要 十秒 的 这个 版本 我 感觉 这些 素材库 其实 也 在 加入 这些 A I 功能。 然后 我们 其实 要 比如说 我们 就要 3秒或者 9秒, 我们 就是 为了 要 他 那个 片尾 对 吧? 就是 他 可以 告诉你 这个 章节 终结 了, 我们 马上 要 开始 下一个 章节 了。
是 有的, 但是 我 觉得 可能 还是 不够 做 的 精细。 因为 它 可能 有 10秒的 版本、 20秒的 版本、 30秒的 版本。 但是 它 不会 有 16秒的 版本 或者 是 25秒 的 版本, 就是 刚刚好 卡 在 那个 秒 上。 比如说 我们 现在 开头 我的 主持 出来 是 36秒, 然后 那个 音乐 是 50秒。 有的 时候 我们 现在 会 出现 的 方法 就是 为了 配合 那个 音乐。
有 两种 减法 了。 第一种 就是 我们在 中间 去 加 一些 其他 的 素材, 或者 其他人 的 采访, 或者 是 历史人物 的 一些 说 的话, 一些 采访, 一些 伤害 在 里面 去。 把 时间 撑到 50秒, 但是 这样的话 就会 拉 慢 开头 的 那个 节奏。 可能 大家 会 觉得 开头 慢 了, 可能 很多人 就 不会 看 下去。 开头 的 完 播 率 它 其实 就会 降低, 那 它的 算法 可能 就 滚 不动 了。 所以 就是现在 可能 我们 用了 一个 方法, 就是说 在那 30秒或者 40秒的 开头 的 时候, 我们 还是 保证 他 最后的 那个 落点 的 几秒钟 能够 配合 我们 非常 strong 的 一个 画面。 但是 中间 我们 可能 把 音乐 给 掐断, 就是 他 可能 不会 那么 连贯, 但是 可能 开头 的 时候 大家 也 不太 听得出来。
或者说 我们 放 一点点 的 外面 的 natural sound, 或者 放 一点点 的 sound back 在 里面, 然后 有 一点点 的卡, 有 一点点 的 炖, 不太 放 得 出来。 但是 它 不是 一个 完整 的 曲子, 它 中间 其实 还是 有 断层 的对, 我们 经常 用 这种 方法。 对, 所以 我 就说 是不是 A I 可以 把 它 弄 得 更加 smooth 一点, 还是 可以 把 它 换成 一个 非常 完整 的 一段 音乐, 它 中间 不会 有 jump .
cut 的 这种 衔接 稍微 好 一点。
其实 现在 的 剪辑 软件 上 是 可以 实现 这一点 的。 就是 它 可以 把 一条 1分50秒 的 音乐 变成 一个 50秒的 音乐。 它 会 自动 帮你 剪, 让 你 觉得 它的 衔接 会 变得 更加 流畅。 哪个 软件? 我 平时 用来 剪 视频 的 软件 就是 P R, premiere pro 它是 可以 实现 的, 把 音频 缩短 或者 拉长 都 可以。
就是你 只用 在 那个 时间轴 里面 去 拉它 或者 缩减 它 就可以 了。
对它 有 个 功能 让 你可以 延长。
它是 调整 速度 吗? 还是 把 它的 整个 曲调 都 变了。
没有 变 去掉 它 就是 在 该 剪 的 时候 把 你 剪掉, 然后 把 它 缝合 在一起, 就是你 讲 的 第二个 办法。 但是 它是 通过 机器 去 实现 的, 不用 我们 人工 去 找 那个 该 剪 的 地方。
O K O K A I 融合。
对他 可能 就是 找 了 一个, 如果你 把 它 剪 了, 听 上去 也 不会 那么 突兀 的 那个 点, 他 就是 帮你 把 那个 点 给 找 了。
我 觉得 放大 看 应该 也有 这样的 功能, 但是 我 不清楚, 没用过。
我 去 找 一下 audition 有 这个 功能 吗?
应该 有 吧, P R 都 有了, audition 应该 有。
我 为什么 没有 发现? 我 每次 还 把 它 剪断, 然后 中间 衔接 一下 就 想办法。
我 觉得 他们 对, 他们 应该 多多 做 一下 广告 这些 新的 功能。
我 这里 有一个 可以 说 商业 上 的 问题, 因为我 听 下来 感觉 从 剪辑 上 A I 非常重要 的 一点 就是 它 需要 很多 的 个性化 和 定制 化。 我们 以前 传统上 所谓 说 大公司 做了 很多 比较 通用 的 东西, startup 的 机会 就是 做 这些 比较 小 个性化 的 东西。 但是 现在看来 A I 模型 什么 职业 都是 被 大公司 所 去, 有 很多 大公司 大 模型 做得 非常 好。 我想 问 一下 倩 姐, 红军 就是 你们 用 下来, 感觉 在 以后 在 未来 是 小 公司 可能 把 这些 比较 细节 的 feature 做 的 比较 好, 你们 会 真的 去 用 呢? 还是 你们 现在 会 觉得 你们 以后 还是会 使用 大公司 的 产品。 因为 他们 已经 有了 一个 很 成熟 的 产品 体系, 只是 往里面 去 微调 一些 细节 会 更加 容易 一些。
我 觉得 他 只要 做得 够 好, 小 公司、 大公司 我 都 愿意 去 试。
但是 你们 觉得 是 小 公司 更有 可能 做得好, 还是 大公司 更有 可能 做得好?
从 我的 角度 的话, 我是 期待 现有 的 这些 用 的 比较 常用 的 一些 制作 软件, 它 能 更多 的 去 整合 现在 小 公司 在 做 的 这些 功能 的。 因为 从 用户 的 角度, 我 已经 熟悉 了 一个 软件, 一个 系统。 那 这个 时候 你 其实 看到 的 是 它 能 因此 变得 更 高效。 你 不可能 因为 某些 小的 功能, 然后 去 学习 陌生 的 另 一套 系统。 这个 对 我们 做 设计 的, 做 制作 的 来说, 其实 是 会 造成 很大 的 不便。 就 好像 你 用惯 了 一个 软件, 你是 很难 去 跳 到 另一个 软件 上面 去 工作 的。
对我 觉得 包括 现在 像 final cut pro。 上面 有 一些 基本 它的 就是 原来的 一些 功能, 这些 东西 其实 它 也是 都在 upgrade, 就是 在 更新 了。 但是 我 觉得 有 一些 小 公司 它 会有 一些 插件, 通过 卖 插件 的 这种 方式 来 实现 它的 商业化。 比如说 我 其实 两年 前 买 了 一个 99美元 的 A I 消 噪 的 这样的 一个 插件, 其实 不 便宜。 但是 它 在 两年 前 出的, 我 觉得 它 效果 非常 的 好。 它 比 之前 final cut pro 它 自带 的 一些 消 噪 的 功能 会 处理 的 自然 很多。 把它买 下来 之后, 把 它 import 到 final cut 里面 去 之后, 其实 也很 好用 了。 它 直接 就 到 你的 插件 栏 里面, 直接 把 它 拖 过去 就可以 进行 一个 香皂 了。 而且 有 很多很多 的 小 公司, 还有 自己的 工作室 在 出 这样的 一个 插件, 然后 就 直接 适配 到 adobe premium 或者 是 final cut pro 或者 是 其他 的 一些 剪辑 软件 上 的。
可能 跟 公司 的 性质 规模 也有 关系。 比如说 很多 个人 创作者, 他们 也 拍 视频, 做出来 的 视频 可能 他 也 不输 专业级, 他 可能 用 剪 映 就可以 了。 像 我们 如果 就是 一个 做 播客 跟 视频 的 工作室, 我们 还是会 用 像 adobe 的 各种 软件。 那 如果 再 专业 一点, 像 线上 自 采 的 三体 的 特效 导演, 其实 后面 他 还给 我们 推荐 了 很多 声音 的 处理软件, 那个 真的 是 已经 到 非常 专业 级别 的 了。 他 也 可能 是 插件, 也 可能 是 一整套 软件。
其实 对 他们 来说, 他们 那个 规模 的 制作, 就是 市场上 所有的 A I 类 的 产品。 你 只要 对 我们的 创作 有 帮助, 我们 全部 要 用。 基本上 其实 我们 今天 聊 这 期 节目 也是, 只要 对 我们的 节目 有 帮助, 我们 全部 会 去 试。 你的 效果 好, 能 用上, 我们 就 留下来 继续 付费。 如果 它的 效果 不 那么好 的话, 其实我 自己 也 订阅 了 很多 软件, 我 可能 就 一个 一个 的 又 慢慢 退订 掉了。 它 可能 是 有一个 市场 分级 的。
刚刚 我们 分别 有 讨论 过 视频 的 环节 是 怎么 跟 A I 相结合 的。 播客 的 环节, 比如说 声音 替换, 声音 克隆, 还有 背景音乐 的 生成。 其实 还有 一部分 我 觉得 也是 大家 用 的 最多 的 一部分, 跟 我们 真正 相关 的 内容 创作 的 环节。 就 比如说 在 我们的 写稿 能不能 帮 我们 整理 采访 提纲, 然后 能不能 帮 我们 整理 内容 框架, 还有 我自己 生成 锈 note 的 部分。 先请 君 武 给 我们 分享 一段, 我知道你 写 代唐 的那 篇 稿子, 你 其实 是 有用 ChatGPT 去 找 一本 特定 的 书 的 问题 的。
你是 怎么用 的 具体 当时 的 use case, 就是说 用 ChatGPT 去 总结 一本书 里面 的 一些 我想 找到 的 具体 的 例子。 但 讲到 这个, 我 觉得 可能 有 必要 给 大家 稍微 分享 一下 这个 背景。 代唐 这 篇 稿子 讲到 最早 的 第一代 代唐 在 1910年代。 那个 时候 人们 一开始 为什么 会对 代糖 的 安全性 慢慢 开始 产生 质疑? 那 是因为 他们 读 了 一本 当时 出版 的 叫做 图 昶 的 小说。 但是 这个 小说 有 四百多 页, 非常 长, 里面 具体 有 哪些 细节 描述 了 代糖 可能 在 安全 方面 的 隐患。 我 不太可能 每一页 都 去 把 这个 小说 去 读 下来。 所以 当时 我 就 找 了 四百多 页 的 P 也 直接 把 它 一 整个 一股脑 全都 上 传到 了 当时 ChatGPT 最新 出的 那个 GPT s 制作 插件 的 这个 小 工具 的 网页 里面。 那 我 当时 就说, 你 这个 插件 能不能 帮 我 做 一个 小说 的 总结, 告诉我 这 本书 里面 具体 哪些地方, 具体 哪 一些 的 描绘, 让 读者 读 了 之后 可能 会 产生 对于 食品安全 的 质疑。
那 ChatGPT s 它 很快 的, 我记得 当时 是 10秒20秒之内 就 把 这 400页整理 完了。 跟 我说 OK 这 本书 里面 有 一些 比如说 对于 香肠, 它的 香薰 料, 包括 像 香肠 外面 包裹 的 这些 东西, 这些 食品添加剂 的 安全, 这些 问题 大家 会 比较 关注 的。 所以说 这个 是一个 我 具体 的 use case。
我 觉得 总的来说, 在 创作 和 写作 的 过程 当中, 需不需要 去 用 工具 分为 两大类。 一类 是 可能 我们 对 事实 的 准确率 要求 很高 的, 比如说 代 堂 里面 的 一些 可能 使人 产生 疾病 的 这些 机理, 包括 甚至 像 我猜, 有可能 比如说 讲 钻石 背后 的 化学 的 这些 性质, 包括 像 怎么样 这些 准确率 要求 高 的, 我 可能 还是会 自己 作为 人 去 读 论文, 或者 怎么样, 然后 把 它 总结 出来。 另一类 相对来说 是对 准确率 要求 没有 那么 高 的那 比如 就是说 在 一个 四百多 页 的 小说 里, 把 它的 核心 的 概念 去 总结 出来。 也 不是说 让 他 拼 point 到 哪 一页, 讲 了 什么东西, 具体 是什么, 但是 把 这个 意思 提炼 出来, 包括 像 我会 把 我的 提纲 跟 ChatGPT 分享 一下, 看 他 觉得 是不是 能够 很 清晰 的 整理出来 一个 逻辑。 如果我 的 东西 跟 他说, 他 都 不知道 我在 说啥, 那 可能 就 说明 我的 思路 非常 混乱。 但 他 如果 能够 大概 的 get 我想 表达 是什么 意思, 这 可能 说明 我的 这个 框架 相对来说 就是 比较 清晰 的。 总的来说 用 A I 工具 会 从 对 准确率 的 要求 是否 高 这个 方面 去 把 它 分为 两大块 的 这样的 内容。
那 欠 你 会 用 ChatGPT 帮你 去 写 内容 框架 吗?
其实我 现在 其实 用 的 不算 多了。 X GPT 刚 出来 的 时候, 我 有 非常 actively 的 想要 去 积极 的 拥抱 它。 但是 出了 两个 很大 的 错误, 最后 没有 到 成片 里面 了。 就是我 自己 在 做 一些 调研 的 时候, 发现 两个 很大 的 错误, 然后 就是 让 我 有点 阴影 了。
第一个 是 可以 跟 大家 分享 一下, 就是 当时 我 正在 写 OpenAI 成长史 那 篇 稿子。 最 开始 的 时候 我 就 问 他说 OpenAI 最早 的 投资人 都有 哪些? 最 开始 比如说 有 elon mask, 有 sam autem 等等等等 这些 人, 然后 出现了 一个 腾讯, 然后 我 当时 就 非常 的 震惊, 我说 这 怎么 可能 就是 一本正经 的, 我 一本正经 的 就是 腾讯 夹杂 在 很多 的 外国人 的 名字 里面。 然后 我 当时 就是 非常 的 有 八分 怀疑, 1点9分 的 震惊, 还有 0点1分 的 兴奋。 然后 那个 0点1分 的 兴奋 就说 如果 这 是真的, 那 这 不是 震惊 全球 的 大新闻 吗? 我们 硅谷 101是不是 要 搞 个 大新闻? 但是 我 当时 就是 99%, nineteen nine percent, 他 肯定 9.9999, 他 肯定 是 出错 了。
那 我 就 很 好奇 说 他是 怎么会 出现 这个 错误 的, 然后 我 当时 就 问 他说 你说 腾讯 是 投资人, 那 你的 source, 你的 来源 是 哪里? 然后 你 把 link 发给 我, 然后 他 当时 还 可以 给发 link, 就是说 他的 信息 来源 是 哪里。 然后 我 发现 说 他的 link 是 腾讯 投资 的 一个 公司 新闻 的 下面 一个 新闻 是 open I 接受 了 可能 马斯克 什么什么 的 投资。 所以 他 把 这 两篇 一 结合, 就 变成 了 腾讯 投资 OpenAI 太 会 联想 了。
对。
然后 我 当时 就 觉得 说 这个 东西 太 扯 了, 然后 就 完全 不能用 它 去做 很多 basic 的 一些 research。 所以 我 现在 其实 在 做 一些 准确度 非常 高 的 一些 调研 的 时候, 我 可能 自己 还是 比较 谨慎 了。 就是我 现在 大概 的 写稿 步骤, 可以 跟 大家 break down 一下, 跟 大家 分享 一下。 我 觉得 对于 硅谷 101, 因为 我们 做 还是 做 比较 深度 的 内容。 我 觉得 一篇 稿子 对我来说 就是 了解 这个 选题 的 求知欲 有没有 被 满足。 我们 说 写 稿子 做 新闻, 就是 5个W1个 h what, where, why, when, who and how.
然后 我们 把 这些 问题 要是 解释 好了, 那 它 就是 一篇 好 稿子。 其实 每个 步骤 都是 说, 慢慢的 把 这个 细节 掰开 去 求证 的 这样的 一个 过程。 就 包括 第一 就是 前期 的 内容 准备。 如果你 抛 给我 一个 选题, 或者 我们 决定 做 一个 选题, 我 起码 要 对它 有一个 大概 的 理解, 才能够 确定 它 这个 稿子 的 框架 跟 选题 的 思路。 但是 我 觉得 这个 部分 是 可以 用 叉 G B T 的。
如果 在 ChatGPT 之前, 比如说 红军 我们 写 稿子 的 时候, 可能 之前 的 职业 训练 都会 跟 我们 说, 你 就 去 google 上面 去 找 关键词, 然后 把 google 的 前十页 里面 的 新闻报道 全都 读 一遍。 你 其实 对 一个 事件 就有 大概 的 一个 认知 了。 但是 我 觉得 现在 这 一部分, 其实 是 可以 通过 跟 叉 C B T 或者 冰川, 或者 是 其他 的 一些 大 模型 聊天, 来完成 这 一部分 对 这个 事件 的 一个 基本 的 认知。 也许 以前 要 看 google 的 前十页 的 每篇 报道, 你 要 用 2到3个小时, 可能 现在 会 更快 一些。 你 跟 他 聊天 的话, 半个 小时 或者 1个小时, 可能 你 对 这个 事件 有一个 稍微 基本 的 一个 认知。 所以 我 觉得 它的 优点 是 可以 很快 的 帮你 节省时间, 然后 你 大概 对 这个 事情 有一个 来龙去脉 的 一个 了解。
但是 它 缺点 就是 它 非常 的 笼统。 就是 我们 读 新闻 的 时候, 特别是 读 一些 非常 权威 的 机构 出来 的 东西 的 时候, 它 里面 其实 有 非常 多 证据, 非常 多 细节 的 东西。 那些 东西 是 ChatGPT 完全 给 不了 你的。 比如说 具体 的 数据, 具体 的 细节, 具体 的 它的 故事 来龙去脉 是什么 样子 的。 X G B T, 你 会 发现 它 非常 的 笼统。
又 拿 最新 的 正式 的 报道 来 举 个 例子。 比如说 我 跟 x gbt 聊 的 时候, 我问 他的 问题是 人造 钻石 是 如何 颠覆 钻石 行业 的。 他 就会 很 笼统 的 跟 你说, 通过 人造 钻石 技术 的 发展 巴拉巴拉。 然后 现在 导致 了 钻石 行业 的 一个 价格 的 下跌。 人工 钻石 它的 技术 发展 也能 也 导致 人工 钻石 价格 的 下跌。 但是 没有 具体 的 数字, 也没有 具体 跟 你说 他 技术 是 怎么 发展 的。 如果 你不知道 具体 的 中间 应该 怎么 去 问 他的 问题, 或者 你不知道 什么 对, 你不知道 怎么 去 问 他 对应 的 细节 问题。
但是 如果我 看 一篇 比如说 纽约时报, 或者 是 其他 的 非常 权威 的 媒体 写 的 比较 好的 一些 长篇 深度 的 报道 出来。 他们 很大 可能 会 跟 你说, 技术 发展 是 通过 两个 不同 的 技术 派别 的。 是 有 化学 气相沉积 法 C V D, 还有 高温高压 法 H P H T, 以及 这 两个 技术 发展 是 什么样 的。 然后 哪一年 发生 了 什么样 的 事情。 然后 你可以 再去 通过 具体 的 问题 就 问 X G B T 说, 给我 解释一下 什么 叫做 化学 气象 沉积 法, 什么 叫做 高温高压 法。 如果你 问 对了 这个 细节 的 问题, 他 就会 跟 你说 列举 出来 12345 他是 怎么 去 work 的。 我 觉得 这部分 他 其实 还是 挺 有 用途 的。 但是 是 说 你 要 去 找到 问 他 那个 具体 的 问题 的那 部分, 我 觉得 可能 还是 现在 搜索 大量 的 去 阅读 新闻 的 报道, 可能 我 觉得 目前 是一个 更好 的 方式。
刚刚 听 你的 那个 描述, 我 觉得 前半部 分 你说 我们 是不是 可以在 通过 跟 ChatGPT 的 聊天 中 取代 我们 直接 在 谷 戈 上去 读取 网页, 它的 效率 是 更高 的。 其实我 现在 反而 觉得, 如果你 对 信息 的 效率 利用 的 足够 高 的话, 人 写 的 东西 一定 是 会 比 机器 写 的 东西。 它的 结构 逻辑 完整 度, 包括 它的 故事 是 更加 能够 促进 理解 的。 我 就举 一个 例子, 你 想 了解 A X T Z 这家 投资 机构, 你可以 去 chat G P 上 问 很多 问题。 如果我 的 大脑 是一个 数据库, 我知道 纽约客 写 过 一篇 还原 这家 机构 的 mark and 的 非常 好的 报道, 那 可能 我的 优先级 是 先 去 读 那 一篇 深度 报道。 我 如果 还 知道 哪些 媒体, 我 可能 知道 一些 非常 好的 顶级 的 杂志, 写 过 他们的, 我会 去 搜 这些 杂志 的 名字, 看 他们 有没有 去 写。 我 觉得 这种 方法 可能 是我 读 三篇 报道 胜过 我 跟 ChatGPT 聊 俩 小时。 但 这种 前提条件 是 我们 知道 怎么 去 搜索 更加 精准 的 信息。
对, 你知道 nuka 写 过 那 篇 报道。 对对对, 或者 是 你知道 什么样 的 媒体 是 什么样 调性。
或者 什么样 的 媒体 能够 让 我知道 这个 事情 它的 前因后果 是 什么样 的。 所以 我 基本上 是在 采访 前, 我是 不太会 让 他 去 帮 我 做 任何 的 采访 准备工作 的。 因为他 刚 出来 的 时候, 其实我 试 过 说 你 要不要 给我 列 一些 提纲 什么的。 就是我 觉得 他 列 的 那个 提纲 大概 就是 每个 人都 能 问 出来 的 问题。
我也 不会 让 他 列 提纲。 所以 我 刚刚 说 的 只是 非常 前期 的 一个 内容 准备。 就 比如说 你 把 人造 钻石 它的 技术 是 怎么 去 实现 的? 我 这个 have like zero knowledge 的 东西 给我, 然后 我 可能 觉得 说 稍微 跟 他 聊聊天, 然后 稍微 知道 一个 非常 广泛, 非常 不 get .
started。
对我 觉得 那个 是一个 开始。 但是 我 觉得 后来 我 大概 知道 这个 东西 是 怎么回事 了, 我也 知道 我想 问 什么 了, 我要 去 探索 什么 了。 我 觉得 大纲 的 一个 初步 确定, 然后 接下来 是 我会 做 的。 但是 这 一步 我 可能 自己 脑子 里面 就 已经 成型 了, 我也 不会 通过 x GPT 来 给我 写 提纲。
接下来 就是说 一个 信息 采集 的 一个 过程, 我 觉得 这 一部分 我也 不会 用 它。 第一个 原因, 也是 我 刚才 说 了, 我 觉得 它 有 很多 不准确 的 地方, 我也 不太 敢 用。 第二, 我是 觉得 如果 要 写出 最 好的故事, 就像 洪军 说 的, 就是你 不能 去 读 average 写 的 东西, 不能 去做 每个 人都 能 写 出来 的 东西。 所以 我 觉得 很多 时候 就 一手 采访 是 最 重要 的。 然后 我 觉得 这也是 我们 硅谷 101其实 是 我们 最 看重 的 东西。 然后 你 要 去 跟 行业 里面 真正 做 这个 事情 的, 并且 做 的 最好的 人 去 聊 他们 观察 到 的 东西, 他们 解释 出来 的 东西 永远都是 最有 价值 的 东西。 这 肯定 就是 比 X G B T 它 通过 涌现 或者 它 生成 的 average 的 这种 解释 要好 很多很多, 或者 是要 准确 很多很多。
刚刚 你 有 提到 在 制作 钻石 的 时候, 这个 化学 气象 沉积 法 他是 一个 什么样 的 东西? 你 问 ChatGPT, 其实我 觉得 这个 是 非常 好的, 就是 他 写 出来 的 水平 肯定 是 超过 我的。 因为我 记得 当时 我 做了 一期 跟 生物医药 相关 的 博客, 然后 那个 播客 里面 其实 是 有 非常 多 的 专业名词, 比如说 冷冻电 竞 是什么? 就是我 可以在 谷歌 上 搜索, 然后 我也 确实 搜 了 维基百科 也 用了。 但是 我 觉得 他们 都 解释 的 不够 好。 包括 有 很多 的 医药公司, 像 什么 limbers 薛定谔 公司, 他 其实 都是 通过 新闻 里面 来 的。 然后 我 让 ChatGPT 来做, 他 就 真的 是 这个 名词解释 做 的 非常 的 好。 他 把 每 一家 公司 他的 疾病 的 治疗 范围 都 写 了, 我 就 直接 用了, 我 把 它 放在 修 nose 里面 了, 我 让 听众 来 挑错。 到 现在 为止, 还 没有人 来 挑 这个 错。 但 我 现在 想一想, 我们 都 不知道 他 是不是 在 一本正经 的 胡说八道, 但是 让 他 初步 去 解释一下 一些 概念 还是 好的。
我记得 有 一次 也是 君 武 写 的 一篇 稿子, 是不是 可能 那个 时候 军 武刚 加入 我们 写 稿子, 然后 不知道 这个 语言 应该 要 怎么 去 解释 的, high level 一点, 还是 技术性 一点, 还是 怎么着? 当时 我们 跟 军 武 说, 你 要把 这个 东西 写 的, 就是你 奶奶 都 能够 读懂 它是 一个 什么 意思。 当时 君 武 说, 那 我 让 GPT 给我 解释一下, 就是 一个 什么 three year old child 的 都 能够 解释 的 清楚, 或者 my grandma 都 能够 了解 的 了的 这种 技术 解释 什么 样子 的, 我 觉得 那个 还 蛮 有 帮助 的。
是的, 我 觉得 这也是 可能 是 有 原因 的。 像 洪军 说 的 谷歌 我们 搜索 的 时候, 他的 可能 算法 就是 比较 客观, 比较 事实。 但是 ChatGPT 因为 它 有 各种 不同 的 数据 去 训练, 所以 它 可能 更 会 像 讲故事 一样 讲 出来。 所以 我 觉得 真的 就是说 这种 具体 的 解释 用 它 还是 可以 降 维 的 比较 好。 你们 之前 讲 的 有一个 我 就 觉得 特别 有 共鸣, 就是说 一开始 的 时候 是不是 用 ChatGPT 写 提纲, 我也是 肯定 不会 用 它 去 写 提纲 的。 我的感受 是 提纲 可能 这个 文章 的 框架 是真的。 我们 作为 人, 作为 写手 对于 这个 文章 的 贡献 之一, 或者说 比较 核心 的 一个 决定权。 我希望 这个 决定权 是 我自己 通过 阅读 之后, 我自己 脑子里 去 编织 的 一张 知识 网 去 总结 出来 的。
它 其实 就是 你的 好奇心。
exactly 就是我 的 好奇心 的 体现。 但 如果我 一开始 就 上来 让 ChatGPT 给我 一个 提纲, 可能 我 个人 至少 是 会 比较 容易 被 他 带 偏。 我 就说 他 已经 给我 一个, 那 我 可能 就让 他 这么 去, 可能 会 有点 掰。 就是说 我会 按照 他 那个 提纲 去 找 新闻。 这 样子 的话 可能 就 不一定 能够 特别 全面 的 完全 从 白纸 一张 开始 去 进行 自己的 一些 思考 和 总结。 所以 这一点 是 跟 很 有 共鸣 的 一点。
对我 总是 觉得 用 整个 X G B T 的 感觉 就是我 在 被 给 东西, 我在 被 喂 东西, 而 不是 一个 主动 去寻找、 主动 去 search, 主动 去 求知 的 一个 过程。 我 觉得 这 两者 还是 挺 不一样的 一个 感受 的。 就是 在 整个 search 的 过程中, 你 很快 的 去 阅读 很多 的 书 也好, 新闻 也好, 文章 也好。 其实 你 会 发现 很多 东西 你是 不知道 的, 你 根本 就 不知道 它 存在 的。 然后 你 再去 对 那些 新的 东西 展开 去 深挖, 其实 那个 过程 是 非常 美好的。 但是 chac B T 就是 给你 一个 很 笼统 的 东西, 就 直接 给你 结论。 你 也 不知道 那个 结论 怎么 得来 的, 你 也 不知道 它 到底 是不是 one hundred percent 准确 的。 是的, 那个 感觉 还是 完全 不一样。
满足 我们 好奇心 的 写作 的 这个 原动力 还是 要 抓 在 我们 自己的 手里, 动力 还是。
要有 的对 大 模型 还是 能 帮助 助 我们 去 节省 工作效率 的。 说实话 我 其实 用 ChatGPT 蛮 少 的, 是因为 我 非常 不 喜欢他 对 中文 的 语言 表述 习惯。 我不知道 是不是 因为 他的 训练 语料 的 问题, 我会 让 chat B T 跟 cloud 点 A I 就 anthropic 旗下 的 一款 也是 大 模型 文字 生成式 的 A I 产品 来 帮 我们 去 写 修 note。 我 发现 我 更 喜 还 cloud 点 AI 写 的 修容 词, 我是 觉得 它的 整个 的 语言 结构 跟 语言 表述, 可能 我 更 喜欢 他的 文字 风格 一点。 这个 就是 一个 纯 个人 喜好 的 事情。 但是 在 大 模型 生成 修 notes 的 时候, 我 生成 完了, 我在 即刻 上 发 了 一条 状态。
我说 这个 大 模型 生成 的 修 notes 比 我 实习生 好比 我 快。 但 其实 也是 磨合 了 蛮 久 的, 取决于 我会 给他 什么样 的 一些 我的 demo 的 样板。 就 比如说 如果我说 你每 两分钟 生成 一条 总结, 它 会 非常 整。 02.000、 4.000、 6.00 它 会 这样 抓。 然后 他 生成 的 东西 也 非常 的 随机。 但是 在 我 给他 一些 好的 模板 以后, 他 会越来越 按照 我的 方向 写。 因为 可能 你 让 大 模型 帮你 生成, 他 可能 就 跟 一个 实习生 一样。
他 最 开始 大家 生成 修 nos 都 喜欢 去 把 主持人 的 问题 生成 出来。 比如说 人工 钻石 是什么, 都是 类似 于 这 样子 的。 但是 其实 我们 知道 是 nos 更 吸引 人的 写法。 它 可能 有 几种, 一种 是你 要 写 问题 的 结论, 人工 钻石 是什么 中间 最 吸引 你的 那个 点, 而 不是 问题。 你 要 去 回答 你的 问题, 或者说 你 要 去 总结 嘉宾 的 观点。 还有 一种 是 有的 时候 嘉宾 会有 很多 的 金句, 大家 可能 会 想知道 这个 京剧 的 前因后果 是什么。
第三点, 可以 去 挖掘 播客 中 一些 有意思 的 细节 点。 比如说 像 我们 上 一期 聊到 脑机 接口 的 问题, 嘉宾 就说 到了 有 3到4家 视网膜 公司 都 是因为 封装 问题 而 倒闭 的。 就 把 这个 观点 直接 总结 出来, 就会 比 说 脑机 接口 现在 的 风险点 有 哪些 会 更 吸引人。 这个 就是 抓住 播客 中 采访 到 的 关键 的 细节 点, 把 它 呈现 出来。
最后 一步, 如果说 以上 三个 部分 既 没有 观点 又 没有 进去 总结, 还没有 有意思 的 细节 点, 那 我们 就 直接 说 问题 了。 但是 大家 可以 想象, 如果 前 三个 部分 都 总结 不 出来 的话, 那 这 一部分 的 博客 基本上 听起来 是 非常 的 无聊。 就是我 觉得 它是 有 非常 多 的 层次, 但是 大 模型 通常 只 写 到了 第一个 层次。 总体 来说 就是我 觉得 他的 写作水平 可以 用, 但是 离 好 还是 有 差距。
还差 很远。 因为我 觉得 它 在 细节 上面 还是 完全 不行。 讲故事 细节, 然后 把 一个故事 讲 的 非常 的 生动, 我 觉得 还差 一点点。
对我 觉得 其实 我们 对他 能 不能用 的 标准, 可能 就 全 看自己 对 内容 的 标准。
没错。
好, 谢谢 陈倩, 谢谢 君 武。
谢谢 jack up。 好的, 我们 在这里 给 大家 拜 个 晚年, 真的 是 拜 晚年 了。 对对对, 祝 大家 龙年大吉。
龙年 快乐。
祝 大家 新春快乐。 这 期 节目 我们 谈到 的 所有的 产品, 都是 我们 自己的 试用 体验, 以及 硅谷 101自己的 内容 偏好。 它 并 不能 代表 我们 对 生成式 A I 的 整体 意见。 我们 在这里 也 发 一个 我们 自己的 招聘 信息, 就是 硅谷 101现在 正在 招聘 播客 的 监制 视频, 后期 我们 节目 的 运营, 还有 视频 的 内容 策划 总监。 如果 大家 想知道 我们 招聘 的 详细信息, 可以在 我们 博客 的 show note 中 点击 我们的 链接, 或者 在 硅谷 101的微信 公众 号 上 搜索 我们的 招聘 信息。 欢迎 大家 给 我们 积极 的 投放 简历, 我们的 简历 投放 的 截止 时间 是在 3月1号, 截止 之后 我们会 开始 进入 到 面试 环节。
欢迎 对 内容 创作 感兴趣 的 小伙伴 来 加入 我们的 大家庭。 这就是 我们 今天 的 节目。 如果 大家 喜欢 我们的 节目, 欢迎 大家 在 小宇宙、 喜马拉雅、 苹果 播客网、 易云 音乐 听听 FM、 荔枝 播客、 QQ 音乐 来 收听。 我们 海外 的 听众 可以 通过 苹果 播客 25还有 youtube music 来 收听 我们。 因为 谷歌 今年 会 关闭 他们的 google podcast 的 产品, 所以 我们的 播客 会 转移到 youtube 还有 youtube music 上。 大家 也可以 在 youtube 上 搜索 硅谷 101播客 来 找到 我们。 感谢 大家 的 收听, 谢谢。